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本 书 是 机 器 学 习 及 数据 分 析 领 域 不 可 多 得 的 一 本 著作 ， 也 是 为 数 不 多 的 既 有 大 量 实践 应 用 案例 又 包含 算法 理论 剖 
析 的 著作 ， 作 者 针对 机 器 学 习 算 法 婚 抽 象 复杂 又 涉及 多 门 数学 学 科 的 特点 ， 力 求 理论 联系 实际 ， 始 终 以 算法 应 用 为 主 
线 ， 由 浅 和 人 深 以 全 新 的 角度 诠释 机 器 学 习 。 

全 书 分 为 准备 篇 、 基 础 篇 、 统 计 分 析 实 战 篇 和 机 器 学 习 实 战 篇 。 准 备 篇 介绍 了 机 器 学 习 的 发 展 及 应 用 前 景 以 及 常 
用 科学 计算 平台 ， 主 要 包括 统计 分 析 语言 R、 机 器 学 习 模块 mlpy 和 Neurolab 、 科 学 计算 平台 Numpy、 图 像 识 别 软 
件 包 OpenCV、 网 页 分 析 BeautifulSoup 等 软件 的 安装 与 配置 。 基 础 篇 先 对 数学 基础 及 其 在 机 器 学 习 领域 的 应 用 进 
行 讲述 ， 同 时 推荐 配套 学 习 的 数学 书籍 ， 然 后 运用 实例 说 明 计算 平台 的 使 用 ， 以 Python 和 R 为 实现 语言 ， 重 点 讲解 
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最 后 ， 通 过 大 量 统计 分 析 和 机 器 学 习 案例 提供 实践 指南 ， 首 先 讲解 回归 分 析 、 区 间 分 布 、 数 据 图 形 化 、 分 布 趋势 、 正 
态 分 布 、 分 布 拟 合 等 数据 分 析 基 础 ， 然 后 讲解 神经 网 络 、 统 计算 法 、 欧 氏 距 离 、 余 弦 相 似 度 、 线 性 与 非 线性 回归 、 数 
据 拟 合 、 线 性 滤波 、 图 像 识 别 、 人 脸 辨识 、 网 页 分 类 等 机 器 学 习 算法 。 此 书 可 供 算 法 工程 师 、IT 专业 人 员 以 及 机 器 学 
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图 4-6 树叶 放大 的 颗粒 效果 图 4-9 随机 产生 若干 像素 点 














图 4-10 图 像 变 暗 图 4-11 图 像 变 亮 











图 4-12 图 像 日 落 效果 
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图 4-13 负片 和 水 印 效果 
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图 7-4 神经 网 络 分 类 


Gradient Descent Algorithm 





图 7-6 误差 曲面 及 梯度 下 降 
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图 7-7 落 到 局 部 最 小 点 的 梯度 下 降 


logistic 函 数 












图 7-12” ”sigmoid 曲线 
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图 7-18 误差 曲线 
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图 9-6 强 噪声 图 像 
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为 什么 要 写 这 本 书 


自从 计算 机 问世 以 来 ， 人 们 就 想 知 道 ， 机 器 是 否 能 像 人 类 一 样 具 有 学 习 能 力 。1959 年 ， 美 国 的 
塞 缪 尔 设 计 了 一 个 下 棋 程 序 ， 这 个 程序 具有 学 习 能 力 ， 它 可 以 在 不 断 的 对 弈 中 提高 自己 的 棋艺 。4 年 
后 ， 这 个 程序 战胜 了 设计 者 本 人 。 又 过 了 3 年 ， 这 个 程序 战胜 了 美国 一 个 保持 常 胜 不 败 战绩 8 年 之 久 
的 冠军 。 不 难看 出 ， 这 个 程序 向 人 们 展示 了 机 器 学 习 的 能 力 。 如 果 我 们 理解 了 计算 机 学 习 的 内 在 机 
制 ， 即 怎样 使 它们 根据 经 验 来 自动 提高 ， 那 么 影响 将 是 空前 的 。 

机 器 学 习作 为 一 门 多 领域 交叉 学 科 ， 在 近 20 年 里 异军突起 。 机 器 学 习 涉及 概率 论 、 统 计 学 、 代 
数学 、 微 积分 、 算 法 复杂 度 理论 等 多 门 学 科 ， 通 过 设计 和 分 析 一 些 让 计算 机 可 以 自动 “学 习 ” 的 算 
法 ， 人 类 对 机 器 学 习 的 不 断 研 究 开辟 出 许多 全 新 的 应 用 领域 ， 使 智能 机 器 的 计算 能 力 和 可 定制 性 上 
升 到 新 的 高 度 。 

在 国外 ， 机 器 学 习 技 术 大 量 应 用 于 军事 领域 ，X-47B 验证 机 已 经 完成 首 飞 ， 这 款 由 诺 斯 罗 
普 。 格 鲁 曼 公 司 为 美国 海军 研制 、 外 形 极 似 B-2 战略 疤 炸 机 的 飞机 ， 是 世界 上 第 一 架 完 全 由 计算 机 
控制 的 “无 尾村 、 喷 气 式 无 人 驾驶 飞机”， 它 意味 着 在 未 来 战场 ， 将 会 出 现 无 人 机 先 出 动 ， 打击 对 
方 的 防空 阵地 、 雷 达 、 机 场 等 重要 目标 ， 而 有 人 机 编队 则 在 战场 外 ， 负 责 拦 截 对 方 空中 支援 的 战斗 
机 ， 这 将 彻底 改变 人 类 战争 的 方式 。X-47B 代 表 了 人 类 在 机 器 学 习 研 究 方面 的 巨大 进步 ， 是 智能 机 
器 全 面 参与 人 类 战争 的 标志 ， 代 表 了 人 类 在 模仿 自己 智能 水 平方 面 进入 了 一 个 新 的 阶段 ， 同 时 也 给 
机 器 学 习 带 来 了 全 新 的 发 展 机 会 。 

在 国内 ， 机 器 学 习 正 展现 出 巨大 的 潜力 ， 在 计算 机 领域 中 扮演 着 日 益 重要 的 角色 。 机 器 学 习 的 
应 用 领域 包括 数据 挖掘 、 语 音 识别 、 图 像 识别 、 机 器 人 、 生 物 信息 学 、 信 息 安全 、 车 辆 自动 驾驶 、 
遥感 信息 处 理 、 计 算 金融 学 、 工 业 过 程控 制 、 智 能 家 居 等 。 在 不 久 的 将 来 ， 机 器 的 学 习 能 力 更 接近 
人 类 智能 : 计算 机 能 通过 学 习 医 疗 记录 ， 获 取 治疗 新 疾病 最 有 效 的 方法 ， 住 宅 管理 系统 可 分 析 住户 的 
用 电 模式 ， 以 降低 能 源 消 耗 ， 个 人 助理 软件 则 可 跟踪 用 户 的 兴趣 ， 为 其 选择 最 感 兴趣 的 在 线 信息 。 

随 着 机 器 学 习 技 术 在 国内 外 的 大 量 应 用 ， 机 器 学 习 工 程 师 成 了 备 受 关注 的 人 才 。Google、 
Microsoft 等 公司 早已 经 尝 到 了 机 器 学 习 商 业 化 带 来 的 甜头 ， 所 以 对 机 器 学 习 人 才 提 出 了 大 量 的 需 
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求 。 国 内 很 多 知名 的 公司 如 阿里 巴巴 、 淘 宝 等 为 迎接 大 数据 时 代 带 来 的 挑战 ， 已 经 大 量 引 进 机 器 学 
习 方 面 的 人 才 。 百 度 、 搜 狗 等 由 于 拥有 能 与 Google 竞 争 的 搜索 引擎 ， 早 已 经 开始 了 机 器 学 习 人 才 的 
猎取 。 奇 虎 作为 中 国 领先 的 互联 网 软件 与 技术 公司 ， 其 重头 产品 360 安 全 卫士 成 为 网 络 安全 领域 的 领 
先 品牌 ， 也 对 引进 机 器 学 习 研发 工程 师表 现 出 了 强烈 的 注 求 。 

现在 中 国 已 经 悄然 兴起 了 机 器 学 习 的 学 习 热 湖 ， 掌 握 机 器 学 习 的 工程 师 成 为 了 各 大 IT 巨 头 手中 
疯 抢 的 “ 香 锯 馆 ”。 机 器 学 习 成 为 了 进 人 国内 知名 IT 公司 和 跨国 IT 巨头 比如 Microsoft、Google 的 敲 
门 砖 ， 良 好 的 发 展 势头 和 较 高 的 职业 薪水 ， 吸 引 着 越 来 越 多 的 软件 工程 师 和 数据 分 析 师 诵 人 机 器 学 
习 领 域 。 

但 是 ， 机 器 学 习 的 入 门 门槛 较 高 ， 尤 其 对 研究 者 的 数学 理解 能 力 有 较 高 要 求 ， 相 对 于 数据 结 
构 、 计 算 机 算法 以 及 系统 架构 知识 来 说 ， 机 器 学 习 是 一 个 全 新 的 领域 ， 也 是 一 个 全 新 的 高 度 。 希 望 
本 书 能 帮助 读者 进入 机 器 学 习 的 精彩 世界 。 

理解 机 器 学 习 算法 往往 要 从 理解 它 涉及 的 数学 公式 和 数学 知识 开始 ， 本 书 作 者 也 是 通过 攀登 数 
学 这 座 大 山 一 步 步 走 和 人 机 器 学 习 领 域 的 ， 对 此 深 有 体会 。 打 好 数学 基础 是 非常 必要 的 ， 一旦 你 掌握 
了 数学 分 析 、 线 性 代数 、 概 率 与 统计 、 统 计 学 、 离 散 数学 、 抽 象 代数 、 数 学 建 模 等 数学 理论 后 ， 理 
解 机 器 学 习 算法 就 容易 多 了 ， 就 不 会 居 惧 那些 让 人 生 厌 和 烦琐 的 数学 符号 和 数学 公式 ， 反 而 会 喜欢 
上 这 些 数 学 公式 ， 并 尝试 亲自 推导 一 番 。 





读者 对 象 

口 开发 人 员 。 在 理解 机 器 学 习 算 法 的 基础 上 ， 调 用 机 器 学 习 的 中 间 库 进行 开发 ， 将 机 器 学 习 
应 用 于 各 种 场景 ， 如 数据 分 析 、 图 像 识 别 、 文 本 分 类 、 搜 索引 擎 、 中 文智 能 输入 法 等 。 

口 架构 师 。 在 理解 机 器 学 习 算 法 的 基础 上 ， 适 应 现代 云 计算 平台 的 发 展 ， 将 机 器 学 习 算 法 应 
用 在 大 规模 并 行 计算 上 。 同 时 ， 机 器 学 习 算法 是 大 数据 分 析 的 基础 ， 如 神经 网 络 、SVM、 
相似 度 分 析 、 统 计 分 析 等 技术 。 

口 机 器 学 习 的 初 、 中 级 读者 。 人 类 对 机 器 学 习 的 研究 只 是 一 个 开始 ， 还 远 远 没有 结束 。 近 年 
来 ， 机 器 学 习 一 直 保持 着 强劲 的 发 展 势头 ， 并 拥有 广阔 的 发 展 前 景 ， 而 不 同 于 某 些 软件 开 
发 领域 中 的 程序 语言 或 架构 知识 。 掌 握 机 器 学 习 有 一 定 的 难度 ， 属 于 “人 金领 ”行业 ， 对 读 
者 来 说 ， 掌 握 机 器 学 习 知 识 就 意味 着 更 高 的 薪水 、 更 具 前 景 的 职业 。 





如 何 阅 读本 书 
全 书 分 为 准备 篇 、 基 础 篇 、 统计 分 析 实 战 篇 和 机 器 学 习 实战 篇 。 机 器 学 习 算法 建立 在 复杂 的 计 
算 理论 基础 之 上 ， 并 涉及 多 门 数 学 学 科 。 抽 象 的 理论 加 上 成 堆 的 数学 公式 ， 对 部 分 读者 来 说 ， 带 来 
了 极 大 的 挑战 ， 也 许 会 将 袍 求学 习 的 人 们 挡 在 门 外 。 针 对 这 种 情况 ， 本 书 力求 理论 联系 实际 ， 在 介 
绍 理论 基础 的 同时 ， 注 重 机 器 学 习 算法 的 实际 运用 ， 让 读者 明白 其 中 的 原理 。 
准备 篇 中 首先 介绍 机 器 学 习 的 发 展 及 应 用 前 景 ， 使 读者 对 其 产生 深厚 的 兴趣 ， 同 时 也 介绍 目前 
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常用 的 科学 计算 平台 和 本 书 将 用 到 的 工程 计算 平台 ， 使 读者 消除 对 机 器 学 习 的 晨 难 心理 。 这 些 平台 
的 使 用 ， 也 降低 了 机 器 学 习 软 件 实现 的 难度 。 

基础 篇 将 对 数学 知识 基础 、 计 算 平台 应 用 实例 进行 介绍 ， 推 荐 配置 学 习 的 数学 教科 文档 ， 介 绍 
计算 平台 开发 的 基本 知识 ， 应 用 这 些 平台 实现 计算 应 用 。 

最 后 ， 本 书 将 针对 统计 分 析 实 战 和 机 器 学 习 实战 两 个 部 分 帮助 读者 建立 机 器 学 习 实战 指南 。 还 
将 大 量 应 用 计算 平台 对 统计 分 析 以 及 机 器 学 习 算 法 ， 并 进行 软件 的 实现 和 应 用 。 本 书 附 有 效果 图 ， 
使 读者 对 机 器 学 习 的 应 用 和 理论 基础 有 形象 的 理解 。 


勘误 和 支持 


由 于 作者 的 水 平 有 限 ， 编 写 的 时 间 也 很 仓促 ， 书 中 难免 会 出 现 一 些 错误 或 者 不 准确 的 地 方 ， 有 
不 妥 之 处 恳请 读者 批评 指正 。 您 如 果 遇 到 任何 问题 ， 或 有 更 多 的 宝贵 意见 ， 欢 迎 发 送 邮 件 至 我 的 邮 
箱 myhaspl@myhaspl.com， 很 期 待 能 够 收 到 您 的 真 执 反馈。 此 外 ， 本 书 的 代码 及 相关 资源 请 在 华章 
网 站 (http://www.hzbook.com/) 本 书页 面 上 下 载 。 
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第 1 章 
机 幽 学习 发 展 及 应 用 前 景 


纵 观 国内 软件 工程 师 的 发 展 路 线 ， 前 期 多 以 程序 员 (“ 码 农 ”)、 测 试 工程 师 、 数 据 库 管 
理 员 、 多 媒体 技术 员 、 网 页 与 信息 技术 员 等 职业 为 主 ; 中 期 主要 是 软件 设计 师 、 软 件 评测 
师 、 技 术 支 持 师 等 职业 ;后 期 是 职业 发 展 的 黄金 阶段 ， 这 一 阶段 对 于 拥有 丰富 技术 经 验 的 工 
程 师 来 说 十 分 重要 ， 但 这 一 阶段 容易 遭遇 到 技术 发 展 瓶颈 ， 因 此 ， 很 多 人 将 目光 投向 了 项 目 
管理 和 系统 架构 ， 比 如 : 系统 架构 师 、 项 目 管理 师 等 。 

近年 来 ， 国 内 对 机 器 学 习 的 研究 日 益 深 入 ， 应 用 领域 不 断 扩大 ， 催 生 了 新 的 IT 职 
位 一 一 机 器 学 习 工程 师 ， 百 度 、 搜 狗 、 阿 里 巴巴 、 淘 宝 、 奇 虎 等 国内 IT 巨头 纷纷 提出 了 对 
机 器 学 习 工 程 师 的 需求 ， 掌 握 机 器 学 习 的 人 才 成 为 了 各 大 IT 厂商 争 抢 的 “ 香 馆 狩 "。 机 器 学 
习 迅 速 走红 成 为 热门 技术 ， 这 给 软件 工程 师 带 来 了 绝 佳 的 发 展 机 遇 ， 研 究 与 应 用 机 器 学 习 算 
法 成 为 了 突破 技术 瓶颈 的 方式 ， 机 器 学 习 工 程 师 、 项 目 管理 师 和 系统 架构 师 并 称 为 后 期 发 展 
的 三 大 黄金 职位 。 





1.1 机 器 学 习 概 述 


机 器 学 习作 为 一 门 多 领域 的 交叉 学 科 ， 在 近 20 年 里 异 军 突 出 。 机 器 学 习 涉及 概率 论 、 
统计 学 、 微 积分 、 代 数学 、 算 法 复杂 度 理论 等 多 门 学 科 。 通 过 可 以 让 计算 机 自动 “学 习 ” 的 
算法 来 实现 人 工 智能 ， 是 人 类 在 人 工 智 能 领域 展开 的 积极 探索 。 

2009 年 ， 被 誉 为 人 工大 脑 之 父 的 雨 果 。 德 * 加 里 斯 教授 走 进 清华 大 学 讲堂， 在 两 小 时 
的 演讲 时 间 内 ， 给 大 家 描述 了 一 个 人 工 智能 的 世界 : 20 年 后 ， 人 工 智 能 机 器 可 以 和 人 类 做 
朋友 ，50 年 后 ， 人 工 智 能 将 成 为 人 类 最 大 的 威胁 ,世界 最 终 会 因 人 工 智能 超过 人 类 而 爆发 
一 场 战 争 ， 这 场 智能 战争 也 许 会 夺 去 数 十 亿 人 的 生命 。 这 样 的 描述 并 不 是 幻想 ， 随 着 人 类 
在 人 工 智 能 领域 取得 的 进步 ， 这 很 有 可 能 成 为 事实 。 而 这 一 切 主要 归功 于 对 机 器 学 习 的 研 
究 和 探索 。 
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第 1 章 ”机 器 学 习 发 展 及 应 用 前 景 3 


1.1.1 什么 是 机 器 学 习 


学 习 是 人 类 具有 的 一 种 重要 智能 行为 。 人 类 一 直 梦 想 机 器 能 像 人 类 一 样 学 习 ， 也 一 直 在 
为 这 个 终极 目标 努力 。 那 么 ， 什 么 是 机 器 学 习 呢 ? 长 期 以 来 众说 纷 经 ，Langley ( 1996) 定义 
机 器 学 习 为 :“ 机 器 学 习 是 一 门人 工 智 能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 特 别 
是 如 何在 经 验 学 习 中 改善 具体 算法 的 性 能 ”( Machine learning is a science of the artificial. The 
field's main objects of study are artifacts, specifically algorithms that improve their performance 
with experience. )。Mitchell ( 1997 ) 在 《Machine Learning》 中 写 到 :“ 机 器 学 习 是 计算 机 
算法 的 研究 ， 并 通过 经 验 提高 其 自动 进行 改善 ”( Machine Learning is the study of computer 
algorithms that improve automatically through experience. )。Alpaydin (2004 ) 提出 自己 对 机 器 
学 习 的 定义 :“ 机 器 学 习 是 用 数据 或 以 往 的 经 验 ， 来 优化 计算 机 程序 的 性 能 标准 ”( Machine 
learning is programming computers to optimize a performance criterion using example data or 
past experience. )。 

笔者 综合 维基 百科 和 百度 百科 的 定义 ,尝试 着 将 机 器 学 习 定义 如 下 :“ 机 器 学 习 是 一 门 
人 工 智 能 的 科学 ， 该 领域 的 主要 研究 对 象 是 人 工 智能 ， 专 门 研究 计算 机 怎样 模拟 或 实现 人 类 
的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 使 之 不 断 改善 自身 的 性 能 ， 
它 是 人 工 智 能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 机 器 学 习 的 研究 方法 通常 是 根据 生 
理学 、 认 知 科学 等 对 人 类 学 习 机 理 的 了 解 ， 建 立 人 类 学 习 过 程 的 计算 模型 或 认识 模型 发展 
各 种 学 习 理 论 和 学 习 方 法 ， 研 究 通用 的 学 习 算 法 并 进行 理论 上 的 分 析 ， 建 立 面向 任务 的 具有 
特定 应 用 的 学 习 系 统 。” 


1.1.2 ”机 器 学 习 的 发 展 


早 在 古代 ， 人 类 就 萌生 了 制造 出 智能 机 器 的 想法 。 中 国人 在 4500 年 前 发 明 的 指南 车 ， 
以 及 三 国 时 期 诸葛 亮 发 明 的 尽 人 皆 知 的 木 牛 流 马 ; 日 本 人 在 几 百 年 前 制造 过 靠 机 械 装 置 驱动 
的 玩偶 ; 1770 年 英国 公使 给 中 国 皇帝 进贡 了 一 个 能 写 “ 八 方向 化 ， 九 土 来 王 ”8 个 汉字 的 机 
器 玩偶 ( 这 个 机 器 人 至 今 还 保存 在 故宫 博物 院 )， 等 等 。 这 些 例 子 ， 都 只 是 人 类 早期 对 机 器 
学 习 的 一 种 认识 和 尝试 。 

真正 的 机 器 学 习 研 究 起 步 较 晚 ， 它 的 发 展 过 程 大 体 上 可 分 为 以 下 4 个 时 期 : 

第 一 阶段 是 在 20 世纪 50 年 代 中 叶 到 20 世纪 60 年 代 中 叶 ， 属 于 热烈 时 期 。 

第 二 阶段 是 在 20 世纪 60 年 代 中 叶 至 20 世纪 70 年 代 中 叶 ， 被 称 为 机 器 学 习 冷 静 期 。 

第 三 阶段 是 从 20 世纪 70 年 代 中 叶 至 20 世纪 80 年 代 中 叶 ， 称 为 机 器 学 习 复 兴 期 。 

最 新 的 阶段 起 始 于 1986 年 。 当 时 ， 机 器 学 习 综 合 应 用 了 心理 学 、 生 物 学 和 神经 生理 学 
以 及 数学 、 自 动 化 和 计算 机 科学 ， 并 形成 了 机 器 学 习 理 论 基 础 ， 同 时 还 结合 各 种 学 习 方 法 取 
长 补 短 ， 形 成 集成 学 习 系 统 。 此 外 ， 机 器 学 习 与 人 工 智能 各 种 基础 问题 的 统一 性 观点 正在 形 
成 ， 各 种 学 习 方 法 的 应 用 范围 不 断 扩大 ， 同 时 出 现 了 商业 化 的 机 器 学 习 产 品 ， 还 积极 开展 了 
与 机 器 学 习 有 关 的 学 术 活动 。 
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1989 年 ，Carbonell 指出 机 器 学 习 有 4 个 研究 方向 : 连接 机 器 学 习 、 基 于 符号 的 归纳 机 
器 学 习 、 遗 传 机 器 学 习 与 分 析 机 器 学 习 。1997 年 ，Dietterich 再 次 提出 了 另外 4 个 新 的 研究 
方向 : 分 类 器 的 集成 (Ensembles of classifiers )、 海 量 数据 的 有 教师 学 习 算 法 ( Methods for 
scaling up supervised learning algorithm )、 增 强 机 器 学 习 ( Reinforcement learning ) 与 学 习 复 
杂 统 计 模 型 ( Learning complex stochastic models )。 

在 机 器 学 习 的 发 展 道路 上 ， 值 得 一 提 的 是 世界 人 工大 脑 之 父 雨 果 。 德 加 里 斯 教授 。 他 
创造 的 CBM 大脑 制 造 机 器 可 以 在 几 秒 钟 内 进化 成 一 个 神经 网 络 ， 可 以 处 理 将 近 1 亿 个 人 工 
神经 元 ， 它 的 计算 能 力 相 当 于 10000 台 个 人 计算 机 。 在 2000 年 ， 人 工大 脑 可 以 控制 “小 猫 
机 器 人 ”的 数 百 个 行为 能 力 。 

2010 年 以 来 ，Google 、Microsoft 等 国际 IT 巨头 加 快 了 对 机 器 学 习 的 研究 ， 已 经 党 到 了 
机 器 学 习 商 业 化 带 来 的 甜头 ， 国 内 很 多 知名 的 公司 也 纷纷 效仿 。 阿 里 巴巴 、 淘 宝 为 应 付 大 数 
据 时 代 带 来 的 挑战 ， 已 经 在 自己 的 产品 中 大 量 应 用 机 器 学 习 算法 。 百 度 、 搜 狗 等 已 拥有 能 与 
Google 竞争 的 搜索 引擎 ， 其 产品 中 也 早已 融合 了 机 器 学 习 知 识 ，360 安全 卫士 的 奇 虎 公司 也 
意识 到 了 机 器 学 习 的 意义 所 在 ， 这 些 大 公司 纷纷 表现 出 对 机 器 学 习 研 发 工程 师 的 渴求 。 近 几 
年 正 是 机 器 学 习 知 识 在 国内 软件 工程 师 群 体 中 普及 的 黄金 时 代 ， 也 给 软件 工程 师 们 进入 机 器 
学 习 这 一 金领 行业 带 来 了 机 遇 。 


1.1.3 ”机 器 学 习 的 未 来 


展望 未 来 ， 出 现在 《终结 者 》 等 系列 电影 上 的 场景 终 将 成 为 现实 ， 并 将 在 未 来 的 人 类 世 
界 中 频频 上 演 。 

目前 人 类 已 经 进入 了 与 高 智能 机 器 共同 参与 战争 的 新 时 代 。 据 美国 《航空 周刊 与 空间 技 
术 》 报 道 ，X-47B 验证 机 已 经 完成 首 飞 。 这 款 由 诺 斯 罗 普 。 格 鲁 曼 公司 为 美国 海军 研制 、 外 
形 极 似 B-2 战略 麦 炸 机 的 飞机 ， 是 世界 上 第 一 架 完 全 由 计算 机 控制 的 “无 尾 愤 、 喷 气 式 无 
人 驾驶 飞机 "， 它 意味 着 在 未 来 的 海 空战 场 ， 将 会 出 现 无 人 机 先 出 动 ， 打 击 对 方 的 防空 阵地 、 
雷达 、 机 场 等 重要 目标 ， 而 有 人 机 编队 则 在 战场 外 ， 负 责 拦截 对 方 空中 支援 的 战斗 机 的 作战 
模式 。 这 将 彻底 改变 人 类 战争 的 方式 。 未 来 人 类 在 机 器 学 习 研 究 领域 的 发 展 将 会 进一步 推动 
机 妖 人 军队 在 战场 上 的 应 用 。 

此 外 ， 智 能 机 器 已 经 深入 到 人 类 的 生活 、 工 作 中 。 在 民用 领域 ， 能 从 医疗 记录 中 学 习 的 
机 器 将 会 出 现 ， 它 们 能 分 析 和 获取 治疗 新 疾病 最 有 效 的 方法 ; 智能 家 居 高 度 发 展 ， 分 析 住 户 
的 用 电 模 式 、 居 住 习惯 后 ， 打 造 动态 家 居 ， 从 而 降低 能 源 消耗 、 提 高 居住 舒适 度 ; 个 人 智能 
助理 跟踪 分 析 用 户 的 职业 和 生活 细节 ， 协 助 用 户 高 效 完成 工作 和 享受 健康 生活 。 所 有 这 些 都 
将 有 智能 机 器 的 功劳 。 

不 和 久 的 将 来 ， 人 类 也 许 该 思考 : 在 未 来 的 世界 里 ， 机 器 人 将 充当 什么 样 的 角色 ， 会 不 会 
代替 人 类 呢 ? 人 类 与 智能 机 器 之 间 应 如 何 相处 ? 

人 类 开始 着 手 研究 ， 如 何 才 能 更 好 地 实现 下 面 三 大 准则 : 

第 一 ， 机 器 人 不 可 伤害 人 ; 
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第 二 ， 机 器 人 必须 服从 人 的 命令 ; 
第 三 ， 机 器 人 可 以 在 不 违背 上 述 原则 的 情况 下 保护 自己 。 


1.2 ”机 器 学 习 应 用 前 景 
机 器 学 习 应 用 广泛 ， 无 论 是 在 军事 领域 还 是 民用 领域 ， 都 有 机 器 学 习 算法 施展 的 机 会 。 


1.2.1 数据 分 析 与 挖掘 


“数据 挖掘 ”和 “数据 分 析 ” 通 常 被 相提并论 ， 并 在 许多 场合 被 认为 是 可 以 相互 替代 的 
术语 。 关 于 数据 挖 据 ， 现 在 已 有 多 种 文字 不 同 但 含义 接近 的 定义 ,例如 “识别 出 巨 量 数据 中 
有 效 的 、 新 颖 的 、 潜 在 有 用 的 、 最 终 可 理解 的 模式 的 非 平 凡 过 程 ”; 百度 百科 将 数据 分 析 定 
义 为 :“ 数 据 分 析 是 指 用 适当 的 统计 方法 对 收集 来 的 大 量 第 一 手 资料 和 第 二 手 资料 进行 分 析 ， 
以 求 最 大 化 地 开发 数据 资料 的 功能 ， 发 挥 数据 的 作用 ， 它 是 为 了 提取 有 用 信息 和 形成 结论 而 
对 数据 加 以 详细 研究 和 概括 总 结 的 过 程 。” 无 论 是 数据 分 析 还 是 数据 挖掘 ， 都 是 帮助 人 们 收 
集 、 分 析 数 据 ， 使 之 成 为 信息 ， 并 作出 判断 ， 因 此 可 以 将 这 两 项 合 称 为 “数据 分 析 与 挖掘 ”。 

数据 分 析 与 挖掘 技术 是 机 器 学 习 算法 和 数据 存 取 技术 的 结合 ， 利 用 机 器 学 习 提供 的 统计 
分 析 、 知 识 发 现 等 手段 分 析 海 量 数据 ， 同 时 利用 数据 存 取 机 制 实现 数据 的 高 效 读 写 。 机 器 学 
习 在 数据 分 析 与 挖掘 领域 中 拥有 无 可 取代 的 地 位 ，2012 年 Hadoop 进军 机 器 学 习 领 域 就 是 一 
个 很 好 的 例子 。 

2012 年 ，Cloudera 收购 Myrrix 共 创 Big Learning， 从 此 ， 机 器 学 习 俱 乐 部 多 了 一 名 新 
会 员 。Hadoop 和 便宜 的 硬件 使 得 大 数据 分 析 更 加 容易 ， 随 着 硬盘 和 CPU 越 来 越 便宜 ， 以 
及 开源 数据 库 和 计算 框架 的 成 熟 ， 创 业 公司 甚至 个 人 都 可 以 进行 TB 级 以 上 的 复杂 计算 。 
Myrrix 从 Apache Mahout 项 目 演变 而 来 ， 是 一 个 基于 机 器 学 习 的 实时 可 扩展 的 集群 和 推荐 
系统 。 

Myrrix 创始 人 Owen 在 其 文章 中 提 到 : 机 器 学 习 已 经 是 一 个 有 几 十 年 历史 的 领域 了 ， 为 
什么 大 家 现在 这 么 热衷 于 这 项 技术 ? 因为 大 数据 环境 下 ， 更 多 的 数据 使 机 器 学 习 算 法 表现 得 
更 好 ， 机 器 学 习 算 法 能 从 数据 海洋 提取 更 多 有 用 的 信息 ; Hadoop 使 收集 和 分 析 数 据 的 成 本 
降低 ， 学 习 的 价值 提高 。Myrrix 与 Hadoop 的 结合 是 机 器 学 习 、 分 布 式 计算 和 数据 分 析 与 挖 
掘 的 联姻 ， 这 三 大 技术 的 结合 让 机 器 学 习 应 用 场景 呈 爆 炸 式 的 增长 ， 这 对 机 器 学 习 来 说 是 一 
个 千 载 难 因 的 好 机 会 。 


1.2.2 ”模式 识别 

模式 识别 起 源 于 工程 领域 ， 而 机 器 学 习 起 源 于 计算 机 科学 ， 这 两 个 不 同学 科 的 结合 带 来 
了 模式 识别 领域 的 调整 和 发 展 。 模 式 识别 研究 主要 集中 在 两 个 方面 : 一 是 研究 生物 体 (包括 
人 ) 是 如 何 感知 对 象 的 ， 属 于 认识 科学 的 范畴 ; 二 是 在 给 定 的 任务 下 ， 如 何 用 计算 机 实现 模 
式 识 别 的 理论 和 方法 ， 这 些 是 机 器 学 习 的 长 项 ， 也 是 机 器 学 习 研 究 的 内 容 之 一 。 
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模式 识别 的 应 用 领域 广泛 ， 包 括 计 算 机 视觉 、 医 学 图 像 分 析 、 光 学 文字 识别 、 自 然 语 言 
处 理 、 语 音 识 别 、 手 写 识别 、 生 物 特征 识别 、 文 件 分 类 、 搜 索引 擎 等 ， 而 这 些 领域 也 正 是 机 
器 学 习 的 大 展 身手 的 舞台 ， 因 此 模式 识别 与 机 器 学 习 的 关系 越 来 越 密切 ， 以 至 于 国外 很 多 书 
籍 把 模式 识别 与 机 器 学 习 综合 在 一 本 书 里 讲述 。 


1.2.3 ”更 广阔 的 领域 


目前 国外 的 IT 巨头 正在 深入 研究 和 应 用 机 器 学 习 ， 他 们 把 目标 定位 于 全 面 模仿 人 类 大 
脑 ， 试 图 创造 出 拥有 人 类 智慧 的 机 器 大 脑 。 

2012 年 Google 在 人 工 智能 领域 发 布 了 一 个 划时代 的 产品 一 一 人 脑 模拟 软件 ， 这 个 软件 
具备 自我 学 习 功 能 ， 模 拟 脑 细胞 的 相互 交流 ， 可 以 通过 看 YouTube 视频 学 习 识 别 猫 、 人 以 
及 其 他 事物 。 当 有 数据 被 送 达 这 个 神经 网 络 的 时 候 ， 不 同 神经 元 之 间 的 关系 就 会 发 生 改 变 。 
而 这 也 使 得 神经 网 络 能 够 得 到 对 某 些 特定 数据 的 反应 机 制 ， 据 悉 这 个 网 络 现在 已 经 学 到 了 一 
些 东 西 ，Google 将 有 望 在 多 个 领域 使 用 这 一 新 技术 ， 最 先 获 益 的 可 能 是 语音 识别 。 

与 此 同时 ，Google 研制 的 自动 驾驶 汽车 于 2012 年 5 月 获得 了 美国 首 个 自动 驾驶 车 辆 许 
可 证 ， 将 于 2015 年 至 2017 年 进入 市 场 销售 ， 如 图 1-1 所 示 。 








图 1-1 Google 研制 的 自动 驾驶 汽车 


自动 驾驶 汽车 依靠 人 工 智能 、 视 觉 计 算 、 雷 达 、 监 控 装 置 和 全 球 定位 系统 协同 合作 ， 让 
电脑 可 以 在 没有 任何 人 类 主动 操作 的 情况 下 ， 通 过 计算 机 自动 安全 地 操作 机 动车 辆 ,Google 
认为 : 这 将 是 一 种 “ 比 人 更 聪明 的 ”汽车 ， 不 仅 能 预防 交通 事故 ， 还 能 节省 行驶 时 间 、 降 低 
碳 排 放量 。 

2013 年 ，Microsoft CEO 高 级 顾问 Craig Mundie 在 北京 航空 航天 大 学 学 术 交 流 厅 发 表 
“科技 改变 未 来 ”的 主题 演讲 ，Mundie 在 演讲 中 谈 到 了 当今 IT 科技 的 三 大 挑战 : 大 数据 、 
人 工 智能 和 人 机 互动 。 他 认为 随 着 大 数据 时 代 的 到 来 ， 人 们 的 各 种 互动 、 设 备 、 社 交 网 络 和 
传感器 正在 生成 海量 的 数据 ， 而 机 器 学 习 可 以 更 好 地 处 理 这 些 数据 ， 挖 掘 其 中 的 潜在 价值 。 
与 此 同时 ， 他 展示 了 微软 研究 院 在 机 器 学 习 方面 的 新 产品 一 一 英语 转 汉 语 实时 拟 原声 翻译 ， 
研究 过 计算 语言 学 的 朋友 都 知道 自然 语言 理解 与 处 理 属 于 机 器 学 习 的 问题 ， 让 计算 机 理解 人 


wwaibbt.com DODODDODODD 





第 1 章 ”机 器 学 习 发 展 及 应 用 前 景 @ 7 


类 语言 可 以 视 同 创造 出 一 个 机 器 ， 该 机 器 拥有 与 人 类 一 样 聪明 的 智慧 。 

机 器 学 习 在 军事 上 的 应 用 更 加 广泛 ， 智 能 无 人 机 、 智 能 无 人 舰艇 、 智 能 无 人 潜艇 陆续 研 
究 成 功 或 已 投放 战场 ， 其 他 军事 领域 也 有 机 器 学 习 研 究 成 果 的 应 用 ， 如 : 美国 国防 部 高 级 研 
究 计划 局 的 电子 战 专家 正在 尝试 推出 利用 机 器 学 习 技 术 对 抗 敌 方 的 无 线 自 适应 通信 威胁 ， 其 
发 布 了 一 份 概括 性 机 构 通告 ( DARPA-BAA-10-79 )， 内 容 为 “ 自 适应 电子 战 行为 学 习 ” 计 
划 ( BLADE )， 以 研发 确保 美国 电子 战 系统 能 够 在 战场 上 学 习 自 动 干扰 新 式 射频 威胁 的 算法 
和 技术 。 


1.3 ”小结 


机 器 学 习作 为 一 门 多 领域 交叉 学 科 ， 该 领域 的 主要 研究 对 象 是 人 工 智 能 ， 专 门 研 究 计算 
机 怎样 模拟 或 实现 人 类 的 学 习 行 为 ， 以 获取 新 的 知识 或 技能 ， 重 新 组 织 已 有 的 知识 结构 ， 使 
之 不 断 改 善 自身 的 性 能 ， 它 是 人 工 智能 的 核心 ， 是 使 计算 机 具有 智能 的 根本 途径 。 

近年 来 ， 机 器 学 习 的 研究 与 应 用 在 国内 外 越 来 越 重视 。 机 器 学 习 已 经 广泛 应 用 于 语音 识 
别 、 图 像 识 别 、 数 据 控 掘 等 领域 。 大 数据 时 代 的 到 来 ， 使 机 器 学 习 有 了 新 的 应 用 领域 ， 从 包 
含 设备 维护 、 借 贷 申 请 、 金 融 交 易 、 医 疗 记 录 、 广 告 点 击 、 用 户 消 费 、 客 户 网 络 行为 等 数据 
中 发 现 有 价值 的 信息 已 经 成 为 其 研究 与 应 用 的 热点 。 

我 们 以 记者 与 雨 果 “。 德 。 加 里 斯 教授 的 部 分 专访 内 容 来 结束 这 一 章 。 

记者 : 为 什么 选择 这 个 研究 工作 ? 

雨 果 。 德 。 加 里 斯 : 对 人 类 大 脑 的 好 奇 心 和 人 脑 的 想象 力 的 好 奇 心 。 人 类 只 是 一 个 个 分 
子 构成 的 机 器 ， 像 计算 机 的 芯片 一 样 ， 像 编制 程序 一 样 。 另 一 方面 ， 作 为 生物 人 都 会 死亡 消 
失 的 ， 但 人 工 智能 机 器 就 不 会 。 所 以 说 ， 这 个 研究 就 像 制 造 神 一 样 。 

当 人 类 促使 技术 进步 ， 让 具有 人 工 智 能 的 机 器 人 得 以 诞生 和 发 展 ， 但 总 有 一 天 人 工 智能 
机 器 会 实现 自己 进化 ， 当 这 种 技术 达到 一 个 奇 点 的 时 候 ， 就 不 需要 人 类 来 推动 了 。 比 人 类 联 
明 得 多 的 人 工 智 能 机 器 将 在 以 年 为 单位 的 短 时间 里 产生 。 

记者 : 预测 一 下 未 来 人 工 智 能 机 器 的 前 景 。 

雨 果 。 德 。 加 里 斯 : 下 一 个 20 年， 它们 很 有 可 能 出 现在 我 们 的 家 里 ， 为 我 们 打扫 房间 ， 
照顾 小 孩 ， 和 我 们 聊天 ， 给 我 们 来 自 地 球 上 知识 库 里 面 的 无 限 知识 。 我 们 还 将 可 以 和 它们 有 
性 关系 ， 被 它们 教育 ， 从 它们 那里 得 到 娱乐 和 开怀 大 笑 。20 年 后 的 大 脑 制造 业 ， 每 年 全 球 
范围 内 将 可 能 创造 万 亿美 元 的 价值 。 人 工 智 能 机 器 有 比 我 们 聪明 万 亿 倍 的 可 能 性 ， 不 硅 张 地 
说 ， 人 工 智 能 机 器 和 人 类 交流 ， 就 像 人 类 试图 和 岩石 交流 一 样 艰难 。 不 过 ， 真 正 的 人 工 智能 
在 我 死 后 的 三 四 十 年 内 不 会 被 制造 出 来 。 我 活着 看 不 到 工作 的 真正 结果 ， 这 是 让 我 租 表 和 失 
望 的 一 个 根源 。 


wwaibbt.com D000000 


第 2 章 
科学 计算 平台 


机 器 学 习 算 法 具有 坚实 的 数学 理论 支持 ， 机 器 学 习 的 应 用 建立 在 科学 计算 的 基础 上 ， 而 
数学 计算 又 是 科学 计算 的 主要 组 成 部 分 。 计 算 机 技术 的 飞速 发 展 和 计算 数学 方法 及 理论 的 日 
益 成 熟 ， 使 解决 复杂 的 数学 计算 问题 成 为 可 能 。 这 些 问 题 在 以 前 用 一 般 的 计算 工具 来 解决 非 
常 困难 ， 而 现在 用 计算 机 来 处 理 却 非常 容易 。 目 前 用 计算 机 处 理 得 较 多 的 数学 计算 主要 分 为 
以 下 两 类 : 

第 一 类 是 数值 计算 ， 它 以 数值 数组 作为 运算 对 象 ， 给 出 数值 解 ; 计算 过 程 中 可 能 会 产生 
误差 累积 问题 ， 影 响 了 计算 结果 的 精确 性 ; 计算 速度 快 ， 占 用 资源 少 。 

第 二 类 是 符号 计算 ， 它 以 符号 对 象 和 符号 表达 式 作为 运算 对 象 ， 给 出 解析 解 ; 运算 不 受 
计算 误差 累积 问题 的 影响 ; 计算 指令 简单 ; 占用 资源 多 ， 计 算 耗 时 长 。 

数值 计算 方法 成 为 了 科学 计算 的 重要 手段 ， 它 研究 怎样 利用 计算 工具 来 求 出 数学 问题 的 
数值 解 。 数 值 计算 方法 的 计算 对 象 是 微 积分 、 线 性 代数 、 插 值 与 逼近 及 最 小 二 乘 拟 合 、 数 值 
积分 与 数值 微分 、 和 矩阵 的 特征 值 与 特征 向 量 求解 、 线 性 方程 组 与 非 线性 方程 求 根 ， 以 及 微分 
方程 数值 解法 等 数学 问题 ， 这 些 是 模式 识别 、 数 据 分 析 及 自动 制造 等 机 器 学 习 领 域 需要 应 用 
的 数学 。 

符号 计算 是 专家 系统 等 机 器 学 习 领 域 需要 应 用 的 数学 ， 在 符号 计算 中 ， 计 算 机 处 理 的 数 
据 和 得 到 的 结果 都 是 符号 。 符 号 既 可 以 是 字母 和 公式 ， 也 可 以 是 数值 ， 其 运算 以 推理 解析 的 
方式 进行 ， 不 受 计 算 误 差 积 累 问题 困扰 ， 计 算 结果 为 完全 正确 的 封闭 解 或 任意 精度 的 数值 
解 ， 这 意味 着 符号 计算 给 出 的 结果 能 避免 因 舍 入 误差 而 引起 的 问题 。 还 有 更 多 的 数学 分 支 正 
在 进入 机 器 学 习 领 域 , 复杂 的 数学 计算 需要 强大 的 科学 计算 平台 。 科 学 计算 平台 提供 了 机 絮 
学 习 算 法 应 用 的 底层 支持 。 


2.1 科学 计算 软件 平台 概述 
现代 科学 研究 的 方法 主要 有 三 种 : 理论 论证 、 科 学 实验 、 科 学 计算 。 近 年 来 ,科学 计算 
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方法 逐步 成 为 科学 研究 的 主流 方法 ， 在 金融 工程 、 信 息 检 索 、 基 因 研 究 、 环 境 模 拟 、 数 值 计 
算 、 数 据 分 析 、 决 策 支持 等 领域 得 到 了 广泛 使 用 。 由 于 计算 机 技术 的 发 展 及 其 在 各 技术 科学 
领域 的 应 用 推广 与 深化 ， 这 些 应 用 领域 不 论 其 背景 与 含义 如 何 ， 都 要 用 计算 机 进行 科学 计 
算 ， 都 必须 建立 相应 的 数学 模型 ， 并 研究 其 适合 于 计算 机 编程 的 计算 方法 。 科 学 计算 平台 已 
经 成 为 科学 研究 必要 的 基础 条 件 平台 ， 有 力 地 推动 了 科学 研究 的 发 展 和 工程 技术 的 进步 。 

机 器 学 习 应 用 需要 科学 计算 的 支持 。 大 部 分 科学 计算 应 用 的 领域 都 需要 用 到 机 器 学 习 算 
法 ,科学 计算 平台 与 机 器 学 习 之 间 的 关系 就 像 鱼 与 水 的 关系 。 现 代 机 器 学 习 研 究 与 应 用 早已 
经 离 不 开 科学 计算 平台 的 支撑 ， 科 学 计算 平台 也 因为 机 器 学 习 的 迅猛 发 展 而 进入 了 全 新 的 百 
家 争鸣 时 代 。 


2.1.1 常用 的 科学 计算 软件 
目前 常用 的 科学 计算 软件 有 以 下 几 种 : 


1. MATLAB 

MATLAB 是 一 种 用 于 数值 计算 、 可 视 化 及 编程 的 高 级 语言 和 交互 式 环境 。 使 用 
MATLAB， 可 以 分 析 数 据 、 开 发 算法 、 创 建 模 型 和 应 用 程序 ， 通 过 和 矩阵 运算 、 绘 制 函 数 和 
数据 、 实 现 算法 、 创 建 用 户 界面 、 连 接 其 他 编程 语言 等 方式 完成 计算 ， 比 电子 表格 或 传统 编 
程 语 言 (如 C/C++ 或 Java ) 更 方便 快捷 。MATLAB 具有 强大 的 数值 计算 功能 ， 可 完成 矩阵 
分 析 、 线 性 代数 、 多 元 函数 分 析 、 数 值 微 积分 、 方 程 求解 、 边 值 问题 求解 、 数 理 统计 等 常见 
的 数值 计算 ， 同 时 它 也 能 进行 符号 计算 。 

2. GNU Octave 

GNU Octave 与 MATLAB 相似 ， 它 是 自由 软件 基金 会 开发 的 一 个 自由 再 发 布 软件 ， 以 
John W. Eaton 为 首 的 一 些 志愿 者 共同 开发 了 叫 作 GNU Octave 的 高 级 语言 ， 这 种 语言 与 
MATLAB 兼容 ， 主 要 用 于 数值 计算 ， 同 时 它 还 提供 了 一 个 方便 的 命令 行 方式 ， 可 以 数值 求 
解 线性 和 非 线性 问题 ， 以 及 做 一 些 数 值 模拟 。 


3. Mathematica 

Mathematica 系统 是 美国 Wolfram 研究 公司 开发 的 一 个 功能 强大 的 计算 机 数学 系统 。 它 
提供 了 范围 广泛 的 数学 计算 功能 ， 支 持 在 各 个 领域 工作 的 人 们 做 科学 研究 的 过 程 中 的 各 种 计 
算 。 这 个 系统 是 一 个 集成 化 的 计算 机 软件 系统 ， 它 的 主要 功能 包括 符号 演算 、 数 值 计算 和 
图 形 三 个 方面 ， 可 以 帮助 人 们 解决 各 种 领域 里 比较 复杂 的 符号 计算 和 数值 计算 的 理论 和 实 
际 问题 。 


4. Maple 
1980 年 9 月 ， 加 拿 大 滑铁卢 大 学 的 符号 计算 研究 小 组 研制 出 一 种 计算 机 代数 系统 ， 取 
名 为 Maple， 如 今 Maple 已 演变 成 为 优秀 的 数学 软件 ， 它 具有 良好 的 使 用 环境 、 强 有 力 的 符 
号 计算 能 力 、 高 精度 的 数字 计算 、 灵 活 的 图 形 显 示 和 高 效 的 可 编程 功能 。Maple 在 符号 计算 
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方面 功能 强大 ， 符 号 计算 式 可 以 直接 以 数学 的 形式 来 输入 和 输出 ， 直 观 方便 。 


5. SPSS 

SPSS 预测 分 析 是 IBM 公司 的 产品 ， 它 提供 了 统计 分 析 、 数 据 和 文本 挖掘 、 预 测 模型 和 
决策 优化 等 功能 。IBM 宣称 ， 使 用 SPSS 可 获得 5 大 优势 : 商业 智能 ， 利 用 强大 而 简单 的 
分 析 功 能 ， 控 制 数据 爆炸 ， 满 足 组 织 灵 活 部 署 商业 智能 的 需求 ， 提 升 用 户 期 望 值 ， 绩 效 管 
理 ， 指 导管 理 战略 ， 使 其 朝 着 最 能 盈利 的 方向 发 展 ， 并 提供 及 时 准确 的 数据 、 场 景 建 模 、 浅 
显 易 懂 的 报告 等 ;预测 分 析 ， 通 过 发 现 细微 的 模式 关联 ， 开 发 和 部 署 预测 模型 ， 以 优化 决策 
制定 ; 分 析 决 策 管理 ， 一 线 业 务 员工 可 利用 该 系统 ， 与 每 位 客户 进行 互动 ,从 中 获取 丰富 信 
息 ， 提 高 业务 成 绩 ; 风险 管理 ， 在 合理 的 前 提 下 ， 利 用 智能 的 风险 管理 程序 和 技术 ， 制 定 规 
避风 险 的 决策 。 


6.R 

R 语言 是 主要 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 。 R 目前 由 “R 开发 核心 团队 ” 负 
责 开 发 ， 它 是 基于 S 语言 的 一 个 GNU 项 目 ， 语 法 来 自 Scheme， 所 以 也 可 以 当 作 8 语言 
一 种 实现 ， 虽然 R 主要 用 于 统计 分 析 或 者 开发 统计 相关 的 软件 ， 但 也 可 用 作 和 矩阵 计算 ， 其 
分 析 速 度 堪 比 GNU Octave 甚至 MATLAB。R 主要 是 以 命令 行 操作 ， 网 上 也 有 几 种 图 形 用 
户 界面 可 供 下 载 。R 内 建 多 种 统计 学 及 数字 分 析 功 能 ， 还 能 透 过 安装 套件 ( Packages ) 增强 。 


7. NumPy、SciPy、matplotlib 等 Python 科学 计算 平台 

Python 是 一 种 面向 对 象 的 、 动 态 的 程序 设计 语言 ， 它 具有 非常 简洁 而 清晰 的 语法 ， 既 可 
以 用 于 快速 开发 程序 脚本 ， 也 可 以 用 于 开发 大 规模 的 软件 ， 特 别 适合 于 完成 各 种 高 层 任务 。 
随 着 NumPy、SciPy、matplotlib 等 众多 程序 库 的 开发 ，Python 越 来 越 适 合用 于 科学 计算 。 
NumPy 是 一 个 基础 科学 的 计算 包 ， 包括: 一 个 强大 的 N 维 数组 对 象 封装 了 C++ 和 Fortran 
代码 的 工具 、 线 性 代数 、 傅 立 叶 转 换 和 随机 数 生 成 函数 等 其 他 复杂 功能 的 计算 包 。SciPy 是 
一 个 开源 的 数学 、 科 学 和 工程 计算 包 ， 能 完成 最 优化 、 线 性 代数 、 积 分 、 插 值 、 特 殊 函 数 、 
快速 傅 里 叶 变换 、 信 号 处 理 和 图 像 处 理 、 常 微分 方程 求解 等 计算 。matplotlib 是 Python 最 著 
名 的 绘图 库 ， 它 提供 了 一 整套 和 MATLAB 相似 的 命令 API， 十 分 适合 交互 式 制 图 ， 它 也 可 
以 方便 地 用 作 绘 图 控件 ,嵌入 GUI 应 用 程序 中 。 


2.1.2 ”本 书 使 用 的 工程 计算 平台 


MATLAB、Mathematica、Maple 、SPSS 等 软件 功能 齐全 、 界 面 友好 ， 同 时 内 含 多 种 强 
大 的 软件 包 ， 但 价格 昂贵 ， 它 们 都 是 商业 化 软件 ，GNU Octave、R 和 Python 科学 计算 包 作 
为 开源 免费 的 工程 计算 平台 ， 会 是 不 错 的 选择 。 

本 书 选择 R 和 Python 科学 计算 包 作 为 工程 计算 平台 ，Python 和 R 都 能 在 多 种 操作 系 
统 平 台 上 运行 。Python 是 一 种 非常 流行 的 脚本 语言 ， 用 户 较 多 ， 容 易 掌 握 ， 也 有 成 熟 并 行 
计算 框架 dispy 等 ， 测 试 成 功 的 单机 机 器 学 习 算法 稍 加 修改 就 能 应 用 于 大 规模 分 布 式 计算 的 
工程 之 中 。 正 是 因为 Python 具有 如 此 之 多 的 优点 ，Google 内 部 也 经 常 使 用 它 。R 语言 内 置 
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大 量 统 计 分 析 包 ， 能 访问 部 分 系统 函数 ， 核 心 为 解释 执行 的 语言 ， 大 部 分 用 户 可 见 的 R 函 
数 由 RR 语言 本 身 编写 ， 出 于 效率 原理 ， 计 算 密集 型 任务 通过 在 运行 时 链接 与 调用 C、C++、 
FORTRAN 代码 完成 。 此 外 ， 通 过 Repp 能 把 丰富 的 R 环境 与 C/C++ 等 结合 ,将 R 的 API 
与 数据 对 象 封装 成 类 以 及 类 的 方法 ， 供 外 部 C++ 程序 调用 。 


2.2 ”计算 平台 的 配置 


本 章 将 以 Windows 平 台 和 Linux 平 台 为 例 ， 讲 解 R 和 Python 科学 计算 平台 的 配置 。 
Python 和 R 具有 跨 平台 运行 的 特点 ，Windows 平台 编写 的 Python 和 R 代码 只 需 修正 兼容 性 
问题 即 可 正常 运行 在 类 UNIX 平台 上 ， 如 : 中 文字 符 的 UTF8 与 GBK 转换 、Windows 系统 
与 类 UNIX 平台 的 文件 路 径 差 异 等 。 


2.2.1 Numpy 等 Python 科学 计算 包 的 安装 与 配置 


Python 科学 计算 包 有 两 种 安装 方式 ， 即 : 分 别 安 装 科 学 计算 平台 内 的 软件 包 和 安装 
WinPython 集成 计算 包 。 


1. 分 别 安装 科学 计算 平台 内 的 软件 包 

先 安装 Python， 关 于 它 的 版 本 ， 推 荐 使 用 2.7 版 本 ， 然 后 安装 NumPy、SciPy、 
matplotlib 等 Python 软件 包 ， 它 们 都 有 Windows 系统 下 的 安装 包 。 

Python 安装 包 的 下 载 页 面 为 http://www.python.org/download/， 选 择 2.7 版 本 的 Windows 
安装 可 执行 文件 下 载 即 可 。 

NumpPy 安装 包 下 载 页 面 为 https:/pypi.python.org/pypi/numpy， 下 载 Windows 版 本 的 安 
装 可 执行 文件 即 可 。 

SciPy 安装 包 下 载 页 面 为 https://pypi.python.org/pypi/scipy/， 该 软件 包 目 前 没有 Windows 
版 本 的 安装 执行 文件 ， 要 用 传统 的 Python 安装 第 三 方 软件 包 的 方式 安装 ， 将 安装 包 下 载 解 
压 ， 然 后 在 命令 行进 入 解压 目录 ， 输 入 以 下 命令 : 

Python setup.py install 

Matplotlib 软件 包 的 下 载 页 面 为 http://matplotlib. 
org/downloads.html， 下 载 Windows 版 本 的 安装 可 执 Sn 
行文 件 即 可 ， 注 意 应 下 载 Latest stable version 对 应 Ts ee 


的 软件 包 。 Windows 版 本 的 安装 可 执行 文件 通常 命 e matplotlib-1.3.0.win-amd64-py2.7.exe 


es matplotib-1.3.0.win-amd64-py3.2.exe 
名 格式 为 : 产品 名 称 + 平 台 名 称 +CPU 型 号 + 版 本 。 matplotlib-1.3.0.win-amd64-py3.3.exe 


号 。 以 Matplotlib 为 例 ， 打开 其 下 载 页 面 ， 如 图 2-1 es matplottib-1.3.0.Win32-pY2.6.exe 


e matpiotib-1.3.0.win32-DPY2.7.exe 


Downloads 








所 示 。 e matplotliib-1.3.0.win32-pY3.2.exe 
"Ly pa oo lotlib-1.3.0. 32-DY3.3. 
假设 计算 机 的 CPU 是 32 位， Python 版 本 号 为 En 
2.7， 则 下 载 安装 matplotlib-1.3.0.win32-py2.7.exe， 如 图 2-1 Matplotlib 下 载 页 面 
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果 CPU 是 64 位 的 ，Python 版 本 号 为 2.7， 则 下 载 安装 matplotlib-1.3.0.win-amd64-py2.7.exe。 
在 类 UNIX 平台 上 (以 UBUNTU 为 例 )， 可 使 用 下 面 的 命令 安装 Python 及 相关 科学 计 
算 包 : 


sudo apt-get install Python-numpy python-scipy python-matplotlib ipython ipython- 
notebook python-pandas python-sympy python-nose 


2. 安装 WinPython 集成 计算 包 

WinPython 集成 计算 包 集 成 了 Numpy 等 第 三 方 Python 科学 计算 库 ， 安 装 WinPython 后 ， 
Numpy 等 计算 库 和 Python 2.7 会 一 同 被 安装 。 此 外 ，WinPython 附带 一 款 非 常 不 错 的 IDE 
开发 调试 环境 : Spyder， 如 图 2-2 所 示 是 Spyder 的 界面 截图 。 


sr/bin/env python 
- coding: utf-8 -+*- 
BS#email :myhaspL@q9q. com 
#outhor; 芒 存 
5 #2613-87-25 
6import numpy as np 
lmport math 


import matplotlib.pyplot as pit 


49 
liiclass Mplannliner: 
12 def _ init__(self): 
3 self.b=1 
“14 self.a0=0.1 
15 self.a=0.0 
16 seLF.r=29.6 
selLf.expect_e=8.95 
selLF .traincount=166 
self. testpointel] 


Permiscions: RY TGF Ta 
2-2 Spyder 界面 


在 图 2-2 所 示 的 界面 中 ， 右 上 角 是 类 似 于 MATLAB 的 “工作 空间 ”， 可 很 方便 地 观察 
和 修改 变量 (包含 多 维 数组 ) 的 值 ， 同 时 还 拥有 方便 用 户 的 智能 代码 〈Call-Tips 和 Auto- 
Complete ) 功能 ， 如 图 2-3 所 示 。 
import matplotlib.pyplot as pit 


2,33*6,12,111] 
6, 20 
ey 





.1500 32 bit (intel)] on win32 
more Information 


N+ guidata 1.61. guiqwt 2.3.0 








图 2-3 智能 代码 功能 
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在 IDE 开发 窗口 下 方 的 Console 栏 可 以 使 用 pdb (类 似 于 C 语 言 的 GDB 调试 工具 ) 调 
试 Python 代码 ， 也 可 以 通过 Spyder 的 调试 菜单 进行 调试 。 下 面 是 pdb 调试 工具 的 使 用 帮助 : 


>>> debugfile(r'K:\book prog\zxecf.py', wdir=r'K:\book prog') 
> k:\book prog\zxecf.py(7)<module>() 

-> import matplotlib.pyplot as plt 

(pdb) help 

Documented commands (type help <topic>): 


EOF bt cont enable jump pp run unt 

a © continue exit 1 q s until 
alias cl d h litst, quit step up 
args clear debug help n 下 tbreak Ww 

b commands disable ignore next restart uu whatis 
break condition down 了 P return unalias where 
常用 的 pdb 调试 命令 如 下 : 


口 h(elp): 打印 当前 版 本 pdb 可 用 的 命令 。 

口 disable/enable: 禁用 /启用 断 点 。 

口 n(ext): 让 程序 运行 下 一 行 。 

口 c(ont(inue)): 让 程序 正常 运行 ， 直 到 遇 到 上 断 点 。 

口 j(ump): 让 程序 跳 转 到 指定 的 行 数 。 

口 b(reak): 设置 断 点 ,例如 “b 23”"， 就 是 在 当前 脚本 的 23 行 打上 断 点 ， 函 数 名 也 可 
作为 参数 。 

口 condition: 设置 条 件 断 点 。 下 面 语句 就 是 对 第 5 个 断 点 加 上 条 件 x>=8: 

(Pdb) condition 5 x>=8 

口 cl(ear): 清除 指定 参数 的 断 点 或 所 有 断 点 。 

口 p: 打印 某 个 变量 。 比 如 : 

(Pdb) p _file 

u’” ./pic/dog.jpg’ 

口 ! : 感叹 号 后 面 跟着 语句 ， 可 以 直接 改变 某 个 变量 。 

口 qib: 退出 调试 。 

综 上 所 述 ， 在 Spyder 的 帮助 下 ， 能 更 高 效 地 开发 与 调试 Python 代码 ， 因 此 笔者 推荐 在 

开发 环境 中 安装 WinPython， 方 便 快捷 ， 有 利于 机 器 学 习 算 法 代码 的 编写 。 


2.2.2 ”OpenCy 安装 与 配置 


OpenCV 是 Intel 开源 计算 机 视觉 库 ， 它 由 一 系列 C 函数 和 少量 C++ 类 构成 ， 实 现 了 图 
像 处 理 和 计算 机 视觉 方面 的 很 多 通用 算法 。OpenCV 拥有 包括 300 多 个 C 函数 的 跨 平台 的 
中 高 层 API。 它 不 依赖 于 其 他 的 外 部 库 (尽管 也 可 以 使 用 某 些 外 部 库 )， 对 工程 应 用 来 说 ， 
OpenCV 是 一 个 非常 好 的 计算 平台 ， 因 为 它 遵守 BSD 开源 协议 ， 对 非 商业 应 用 和 商业 应 用 
都 是 免费 。 
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OpenCy 的 主要 功能 有 : 图 像 数据 操作 ， 图 像 /视频 的 输入 输出 ， 和 矩阵 / 向量 数据 操作 
及 线性 代数 运算 ， 支 持 多 种 动态 数据 结构 、 基 本 图 像 处 理 、 结 构 分 析 、 摄 像 头 定 标 、 运 动 分 
析 、 目 标识 别 、 基 本 的 GUI 和 图 像 标注 。 而 且 ，OpenCV 提供 了 官方 的 Python 接口 ， 其 使 
用 方法 和 C 语言 接口 基本 一 致 ， 只 是 一 些 函 数 和 结构 体 可 能 会 有 不 同 。 另 外 ， 函 数 通过 参 
数 来 返回 值 时 一 次 会 返回 多 个 值 。 

在 Windows 上 下 载 安装 OpenCV 的 可 执行 文件 后 可 直接 运行 ， 下 载 页 面 为 http:// 
opencv.org/downloads.html。 

其 在 Linux 平台 上 的 安装 方式 在 OpenCYV 官网 上 有 人 介绍， 具体 安装 顺序 如 下 : 

(1) 安装 基本 软件 包 。GCC 4.4.x 或 更 高 版 本 、CMake 或 更 高 版 本 、Git、GTK+2.x 或 
更 高 版 本 、including headers (libgtk2.0-dev)、pkgconfig、Python 2.6 或 更 高 版 本 、Numpy 
1.5 或 更 高 版 本 、python-dev、python-numpy、ffmpeg 或 libav 开发 包 、ibavcodec-dev、 
libavformat-dev、libswscale-dev。 

(2 ) 安装 可 选 软件 包 。libdc1394 2.x、libjpeg-dev、libpng-dev、libtiff-dev、libjasper-dev。 

(3 ) 在 http:/opencv.org/downloads.html 下 载 其 源 代码 ， 解 压 后 ， 进 入 目录 以 源 代码 编 
译 方式 安装 OpenCV。 


$cd ~/opencv 

Smkdir release 

$cd release 

$cmake -D CMAKE BUILD TYPE=RELEASE -D CMAKE INSTALL PREFIX=/usr/local 入 二 
Smake 

$sudo make install 


2.2.3 ”mlpy 安装 与 配置 


mlpy 是 基于 NumPy/SciPy 和 GSL 构建 的 Python 模块 ， 它 提供 了 高 层 函 数 和 类 ， 人 允许 
使 用 少量 代码 来 完成 复杂 的 分 类 、 特 征 提取 、 回 归 、 聚 类 等 任务 。mply 为 免费 软件 ， 建 立 
在 GPL3 开源 协议 之 上 。 

mlpy 在 Windows 下 的 安装 方式 较 简 单 ， 可 以 直接 在 下 面 网 址 下 载 可 执行 文件 安装 : 

http://sourceforge.net/projects/mlpy/files/ 

在 类 Linux 平台 上 ， 其 安装 方法 稍稍 复杂 一 些 ， 以 Linux、OSX 和 FreeBSD 为 例 ， 安 
装配 置 mlpy， 需 要 先 安装 配置 好 以 下 软件 : 

口 GCC 

口 Python 且 版 本 >= 2.6 或 为 3.X 

口 NumPy 且 版 本 >= 1.3.0 

口 SciPy 且 版 本 >= 0.7.0 

口 GSL 且 版 本 >= 1.11 

然后 ， 在 上 面 网 址 中 找到 mlpy 源 代 码 包 下 载 ， 并 解压 安装 。 假 设 GSL 头 文件 和 库 文件 
没有 安装 在 系统 的 标准 位 置 ， 在 这 种 情况 下 ，mply 的 安装 方式 如 下 : 
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$python setup.py build ext --include-dirs=/path/to/header --rpath=/path/to/l1ib 
Spython setup.py install 


如 果 GSL 安装 在 标准 位 置 ， 则 只 需要 运行 上 述 命令 中 的 最 后 一 行 。 

OpenCV 官方 提供 了 Python 绑 定 库 ， 以 Python2.7 为 例 讲 述 了 安装 绑 定 库 的 方法 ， 在 
Windows 下 ， 将 它 复制 到 Python 的 目录 下 ,将 opencv\build\python\2.7 下 的 cv2.pyd 文件 复 
制 到 python-2.7.5\Lib\site-packages 目录 下 即 可 。 在 Linux 下 安装 了 Python 后 ， 要 确保 usr/ 
lib/python2.7/site-packages 下 有 cv.py 和 cv2.so 文件 ， 如 果 没 有 ， 将 这 两 个 文件 复制 过 来 即 可 。 


2.2.4 ”BeautifulSoup 安装 与 配置 


BeautifulSoup 是 用 Python 写 的 一 个 HTML/XML 的 解析 器 ， 它 可 以 很 好 地 处 理 不 规范 
标记 ， 并 生成 剖析 树 ， 通 常用 来 分 析 “ 仆 虫 ” 抓 取 的 Web 文档 ,或 者 直接 充当 部 分 “ 扑 虫 ” 
的 角色 。 对 于 不 规则 的 HTML 文档 ， 有 补 全 功能 。 有 了 它 ， 解 析 与 分 类 网 页 就 方便 多 了 ， 
节省 了 开发 者 的 很 多 时 间 和 精力 。 

安装 BeautifulSoup 很 简单 ， 在 Windows 平台 和 Linux 平台 上 都 是 使 用 的 传统 第 三 方 
库 安装 方式 。 首 先 下 载 BeautifulSoup 源码 ， 其 官网 为 : http://www.crummy.com/software/ 
BeautifulSoup/。 

然后 解压 后 运行 以 下 命令 : 

python setup.py install 

此 外 , 在 UBUNTU 下 还 可 以 使 用 系统 包 管理 器 安装 。 


$ apt-get install python-bs4 


2.2.5 ”Neurolab 安装 与 配置 


NeuroLab 是 一 个 简单 而 强大 的 、 用 Python 编写 的 神经 网 络 库 ， 包 括 基础 神经 网 络 、 训 
练 算法 ， 并 具有 弹性 的 构架 ， 可 创建 其 他 网 络 ， 它 用 纯 Python 和 numpy 写成 。API 的 使 用 
与 MATLAB 的 神经 网 络 工具 箱 类 似 ， 具 有 弹性 的 网 络 配 置 和 学 习 算法 ， 可 以 改变 神经 网 络 
和 学 习 算 法 的 类 型 、 训 练 、 误 差 、 初 始 函 数 和 激活 函数 等 神经 网 络 参数 。 

Windows 和 Linux 下 的 安装 方式 如 下 。 

首先 在 下 面 的 页 面 下 载 Neurolab: 

http://code.google.com/p/neurolab/downloads/list 

然后 解压 后 运行 如 下 命令 : 


python setup.py install 


2.2.6 ”R 安装 与 配置 


R 的 原始 码 可 自由 下 载 使 用 ， 也 有 已 编译 的 执行 档 版 本 可 以 下 载 ， 可 在 多 种 平台 下 运 
行 ， 包 括 类 UNIX (包含 FreeBSD 和 Linux )、Windows 和 MacOS。 
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WINDOWS 安装 方式 如 下 。 

首先 访问 其 官网 下 载 页 面 : 
http://ftp.ctex.org/mirrors/CRAN/ 
然后 下 载 安装 可 执行 文件 安装 即 可 。 
UBUNTU 下 的 安装 方式 如 下 : 


$ sudo apt-get update 
$ sudo apt-get install r-base 
$ sudo apt-get install r-base-dev 


2.3 小 结 


“不 要 重复 造 轮子 ”( Stop Trying to Reinvent the Wheel )， 这 可 能 是 每 个 软件 工程 师 人 行 
时 被 告知 的 第 一 条 准则 。 在 轮子 适合 “机 器 学 习 ” 这 人 台 车 的 情况 下 ， 机 器 学 习 算 法 才能 跑 得 
更 好 ， 适 合 的 科学 计算 平台 就 是 机 器 学 习 的 “轮子 "。 

笔者 认为 ， 作 为 机 器 学 习 这 驾 马 车 的 “轮子 ”应 该 具备 以 下 特征 : 

口 开源 免费 ， 且 开源 协议 友好 ， 例 如 : LGPL 协议 或 BSD 协议 ,这样 更 有 利于 商业 

应 用 。 

口 平台 有 文档 ， 接 口 规范 ， 能 实际 代码 用 例 最 好 。 

口 配置 简单 灵活 ， 支 持 的 操作 系统 平台 多 ， 运 行 速 度 快 。 

口 代码 结构 清晰 、 简 单 ， 便 于 使 用 者 修改 这 个 “轮子 ”， 通 俗 地 说 : 移植 性 强 。 

本 书 采用 的 计算 平台 在 本 章 都 一 一 列 出 其 安装 和 配置 方法 。 算 法 是 一 种 计算 思维 的 描 
述 ， 万 变 不 离 其 宗 ， 好 的 工具 原理 都 差不多 。 

也 许 随 着 时 间 的 推移 ， 算 法 在 改进 ， 更 好 的 “轮子 ”将 出 现 ， 所 以 不 一 定 采 用 本 书 上 所 
写 的 这 些 平 台 作 为 机 器 学 习 实 验 和 应 用 的 工具 ， 但 有 一 条 原则 : 功能 强大 的 计算 平台 不 一 定 
适合 所 有 的 工程 ， 一 切 以 适用 为 准 。 
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合 抱 之 木 ， 生 于 毫 未 ， 九 层 之 台 ， 
起 于 累 土 : 千里 之 行 ， 始 于 足下 。 
一 一 老子 
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机 需 学 习 数 学 基础 


美国 麻 省 理工 学 院 的 约翰 ， 麦卡锡 在 1955 年 的 达 特 矛 斯 会 议 上 提出 : 人 工 智 能 就 是 要 
让 机 器 的 行为 看 起 来 就 像 人 所 表现 出 的 智能 行为 一 样 。 现 代 有 一 种 观点 ， 把 人 工 智 能 分 为 了 
弱 人 工 智能 和 强人 工 智 能 。 维 基 百 科 是 这 样 解释 这 两 种 智能 的 。 

强人 工 智能 : 强人 工 智能 观点 认为 有 可 能 制造 出 真正 能 推理 ( Reasoning ) 和 解决 问题 
(Problem solving ) 的 智能 机 器 ， 并 且 ， 这 样 的 机 器 能 将 被 认为 是 有 知觉 的 ， 有 自我 意识 的 。 
强人 工 智 能 可 以 有 两 类 ， 类 人 的 人 工 智能 ， 即 机 器 的 思考 和 推理 就 像 人 的 思维 一 样 ; 非 类 人 
的 人 工 智能 ， 即 机 器 产生 了 和 人 完全 不 一 样 的 知觉 和 意识 ， 使 用 和 人 完全 不 一 样 的 推理 方式 。 

弱 人 工 智 能 : 弱 人 工 智 能 观点 认为 不 可 能 制造 出 真正 能 推理 和 解决 问题 的 智能 机 器 ， 这 
些 机 器 只 不 过 看 起 来 像 是 智能 的 ， 但 是 并 非 真 正 拥 有 智能 ， 也 不 会 有 自主 意识 。 

目前 人 类 主要 的 精力 放 在 了 弱 人 工 智能 研究 方面 ， 而 弱 人 工 智 能 则 主要 依托 数学 理论 
来 解决 机 器 学 习 的 问题 。 其 实 ， 部 分 所 谓 的 强人 工 智能 也 建立 在 数学 分 析 的 基础 上 。 因此 ， 
大 凡 说 到 机 器 学 习 ， 总 能 看 到 一 堆 的 数学 公式 来 解说 其 算法 ， 但 讲解 数据 结构 的 书 很 少 能 看 
到 数学 公式 ， 如 果 说 数据 结构 描述 了 软件 设计 思维 ， 那么 机 器 学 习 就 是 描述 了 数学 思维 。 


3.1 数学 对 我 们 有 用 吗 


机 器 学 习 算 法 具有 坚实 的 数学 理论 支持 。 机 器 学 习 的 应 用 建立 在 科学 计算 的 基础 上 ， 而 
数学 计算 则 是 科学 计算 的 主要 组 成 部 分 。 在 机 器 学 习 研 究 的 各 个 领域 (包括 模式 识别 、 数 据 
分 析 、 自 动 制造 、 专 家 系统 等 ) 都 要 应 用 到 数学 ， 数 学 是 机 器 学 习 算法 的 基础 。 

数学 是 一 切 哲 学 、 科 学 的 基础 ， 数 学 与 软件 是 永远 分 不 开 的 话题 。 我 们 应 清醒 地 认识 
到 ， 大 数据 时 代 已 经 到 来 ， 商 业 智能 等 机 器 学 习 技 术 开 始 普及 ， 这 些 技术 从 大 学 的 研究 室 和 
讲台 走 人 了 社会 ， 应 用 到 实际 工程 中 了 。 因 此 ， 从 某 种 意义 上 说 : 数学 架 起 了 从 软件 设计 到 
智能 计算 的 桥梁 。 

下 面 看 看 Common Lisp 专家 Peter Seibel 对 Google 公司 首席 Java 架构 师 Joshua Bloch 
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的 部 分 访谈 ( Peter Seibel 写 ， 孝 培 强 翻译 )， 里 面谈 到 了 数学 与 软件 之 间 的 关系 ， 笔 者 认为 
这 是 目前 网 上 流传 的 最 权威 的 关于 数学 和 软件 关系 的 定义 : 

Seibel: 你 认识 有 哪 位 伟大 的 程序 员 不 会 数学 或 者 没有 接受 过 良好 的 数学 教育 吗 ? 要 成 
为 一 个 程序 员 ， 学 习 微 积分 、 离 散 数学 和 其 他 的 数学 知识 真 的 那么 重要 吗 ? 还 是 做 程序 员 只 
需要 一 种 思想 方式 ， 即 使 没有 受过 这 些 数字 训练 ， 也 能 拥有 ? 

Bloch: 我 觉得 是 思想 方式 ， 学 不 学 数学 都 能 拥有 这 种 思想 。 但 是 学 一 下 确实 有 好 处 。 
我 曾 有 个 同事 叫 Madbot Mike McCloskey。 他 很 懂 数 学 ， 但 是 没有 学 过 数论 。 他 重 写 了 
BigInteger 的 实现 。 原 来 的 实现 是 C 语言 函数 包 的 封装 ， 他 发 郊 用 Java 重 写 ， 要 达到 基于 C 
语言 版 本 的 速度 。 后 来 他 做 到 了 。 为 此 他 学 了 大 量 的 数论 知识 。 如 果 他 的 数学 不 行 ， 他 肯定 
搞 不 定 这 个 项 目 ， 而 如 果 他 本 来 就 精通 数论 ， 就 无 需 费 力 去 学 习 了 。 

Seibel: 但 是 ， 这 本 来 就 是 个 数学 问题 啊 。 

Bloch: 对 ， 这 个 例子 不 恰当 。 但 是 ， 我 相信 即使 是 跟 数 学 无 关 的 问题 ， 学 习 数 学 培养 
出 的 思维 方式 对 编程 来 说 也 是 必 不 可 少 的 。 例 如 ， 归 纳 证 明 法 和 递归 编程 的 关系 非常 紧密 ， 
你 不 理解 其 中 一 个 ， 就 不 可 能 真正 理解 另外 一 个 。 你 可 能 不 知道 术语 的 基本 情况 和 归纳 假 
设 ， 但 是 如 果 你 不 能 理解 这 些 概念 ， 你 就 没有 办 法 写 出 正确 的 递归 程序 。 所 以 ， 即 使 是 在 与 
数学 无 关 的 领域 内 ， 不 理解 这 些 数学 概念 的 程序 员 也 会 遇 到 很 多 困难 。 

你 刚才 提 到 了 微 积 分 ， 我 觉得 它 不 那么 重要 。 可 笑 的 是 这 么 多 年 来 似乎 已 经 成 为 了 一 种 
思维 定 势 了 ， 只 要 你 受过 大 学 教育 ， 那 么 人 们 就 认为 你 应 该 懂 微 积分 。 因 为 微 积 分 中 有 很 多 
美妙 的 思想 ， 可 以 让 人 展开 无 穷 的 想象 。 

但 是 ， 你 可 以 以 连续 或 者 离散 这 两 种 不 同 的 方式 思维 。 我 觉得 对 程序 员 来 说 ， 精 通 离散 
思维 更 为 重要 。 例 如 我 刚 提 到 的 归纳 证 明 法 。 你 可 以 证 明 一 种 假设 对 所 有 整数 都 成 立 。 证 明 
过 程 就 像 施 魔法 一 样 。 首 先 证 明 它 对 一 个 整数 成 立 ， 然 后 证 明 针 对 这 个 整数 成 立意 味 着 针对 
下 一 个 整数 也 成 立 ， 这 样 就 能 证 明 它 适用 于 全 部 整数 。 我 认为 对 程序 员 来 说 这 比 理解 极限 的 
概念 要 重要 得 多 。 

好 在 我 们 无 需 选 择 。 大 学 课程 里 这 两 样 都 教 得 不 少 。 所 以 即使 你 用 微 积分 用 得 没 离散 数 
学 那么 多 ， 学 校 里 还 是 会 教授 微 积分 的 。 但 是 我 认为 离散 的 东西 比 连续 的 东西 更 重要 。 

综 上 所 述 ， 程 序 员 是 以 程序 设计 语言 为 工具 ， 编 程 解决 特定 问题 的 ， 而 编程 的 基础 是 计 
算 机 科学 ,计算 机 科学 的 基础 是 数学 。 数 学 对 程序 员 的 作用 具体 表现 在 以 下 方面 : 


1. 培养 编程 思想 

目前 流行 的 编程 语言 呈现 高 度 同 质 化 的 趋势 ， 只 要 学 会 某 种 语言 ， 其 他 语言 只 是 语法 和 
接口 的 变化 ， 但 软件 设计 的 编程 思想 却 不 尽 相同 。 编 写 计算 机 程序 的 目的 是 为 了 解决 实际 问 
题 ， 严 谨 的 思维 模式 是 高 效 解决 问题 的 关键 。 数 学 天 生 具 有 严谨 性 ， 其 基本 要 素 是 : 逻辑 和 
直观 、 分 析 和 推理 、 共 性 和 个 性 ， 这 些 也 是 编程 思想 的 精 髓 。 程 序 对 问题 的 解决 过 程 蕴含 着 
数学 思想 方法 。 

美国 著名 数学 教育 家 波 利 亚 说 过 ， 用 数学 思维 解决 问题 就 意味 着 要 善于 解 题 ， 当 我 们 解 
题 时 遇 到 一 个 新 间 题 ， 总 想 用 熟悉 的 题 型 去 套 ， 这 只 是 满足 于 解 出 来 ， 只 有 对 数学 思想 、 数 
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学 方法 理解 透彻 及 融会 贯通 时 ， 才 能 提出 新 看 法 和 巧 解法 。 因 此 ,我们 在 软件 编码 时 要 有 意 
识 地 应 用 数学 思想 去 分 析 问 题 、 解 决 问题 ， 培 养 数学 头脑 。 

2. 提高 算法 效率 

数学 与 软件 算法 相辅相成 ， 数 学 是 软件 算法 的 灵魂 ， 软 件 算法 是 数学 的 工具 。 数 学 的 证 
明 与 求解 过 程 往往 是 推导 计算 的 过 程 ， 很 多 推导 计算 过 于 复杂 ， 必 须 用 程序 算法 验证 ， 数 学 
推导 和 算法 设计 有 着 密切 关系 ; 计算 机 算法 的 过 程 需要 数学 语言 进行 描述 ,算法 效果 的 评估 
也 需要 数学 方法 ,特别 复杂 的 算法 效率 评测 甚至 需要 建立 专门 的 数学 模型 。 

《纽约 时 报 》2011 年 报道 ， 著 名 的 摩尔 定律 归纳 了 硬件 技术 进步 的 速度 ， 而 软件 开发 的 
突飞猛进 推翻 了 这 一 定律 。 德 国 科学 家 和 数学 家 马丁 。 格 罗斯 彻 对 15 年 之 久 的 重要 生产 任 
务 进 展 进行 了 调查 ， 结 果 表 明 ， 在 这 15 年 里 ， 运 算 完成 速度 提高 了 4300 万 倍 ， 其 中 1000 
倍 来 自 于 处 理 器 速度 提高 ，43000 倍 则 来 自 软件 算法 效率 的 改进 。 

唐纳德 。 克 努 特 (经典 著作 《计算 机 程序 设计 艺术 》 的 作者 ， 此 书 被 认为 与 数学 著作 
的 《几何 学 原理 》 相 当 ) 是 算法 和 程序 设计 技术 的 先驱 者 。 他 大 学 一 年 级 的 暑假 接触 到 
IBM650， 钻 研 使 用 手册 后 ， 他 对 数学 产生 了 深厚 的 兴趣 。 一 年 后 ， 他 改 学 数学 ， 从 此 与 计 
算 机 结缘 。 他 的 第 一 个 计算 机 程序 也 与 数学 相关 : 为 他 所 在 的 校 篮球 队 设计 公式 ， 根 据 球员 
在 每 场 比赛 中 的 得 分 、 助 攻 、 抢 断 、 篮 板 球 、 盖 帽 等 多 项 统计 数字 ， 对 球员 进行 综合 评 佑 ， 
并 编写 程序 实现 这 个 公式 。 


3.2 ”机 器 学 习 需 要 哪些 数学 知识 
掌握 机 器 学 习 算法 至 少 需要 以 下 几 种 数学 的 基本 知识 。 


1. 微 积分 

微 积分 的 诞生 是 继 欧 几 里 得 几何 体系 建立 之 后 的 一 项 重要 理论 ， 它 的 产生 和 发 展 被 誉 为 
“近代 技术 文明 产生 的 关键 之 一 ， 它 引入 了 若干 极其 成 功 的 、 对 以 后 许多 数学 的 发 展 起 决定 
性 作用 的 思想 ”。 微 积分 学 在 科学 、 经 济 学 和 工程 学 领域 有 广泛 的 应 用 ,解决 了 仅 依靠 代数 
学 不 能 有 效 解 决 的 问题 。 微 积分 学 建立 在 代数 学 、 三 角 学 和 解析 几何 学 的 基础 上 ， 包 括 微分 
学 、 积 分 学 两 大 分 支 ， 包 括 连续 、 极 限 、 多 元 函数 的 微 积分 、 高 斯 定理 等 内 容 。 

微 积分 在 天 文学 、 力 学 、 化 学 、 生 物 学 、 工 程 学 、 经 济 学 、 计 算 机 科学 等 领域 有 着 越 来 
越 广泛 的 应 用 ， 比 如 : 在 医疗 领域 ， 微 积分 能 计算 血管 最 优 支 角 ， 将 血 流 最 大 化 ; 在 经 济 学 
中 ， 微 积分 可 以 通过 计算 边际 成 本 和 边际 利润 来 确定 最 大 收益 ; 微 积分 可 用 于 寻找 方程 的 近 
似 值 ; 通过 微 积分 解 微分 方程 ， 计 算 相关 的 应 用 ， 比 如 ， 字 宙 飞 船 利用 欧 拉 方 法 来 求 得 零 重 
力 环境 下 的 近似 曲线 等 。 

在 机 器 学 习 和 数据 分 析 领 域 ， 微 积分 是 很 多 算法 的 理论 基础 ， 如 : 多 层 感知 器 神经 网 络 
算法 。 多 层 感知 器 是 一 种 前 馈 人 工 神经 网 络 模型 ， 算 法 分 为 两 个 阶段 : 正 向 传播 信号 、 反 向 
传播 误差 。 

正 向 传播 信号 阶段 是 对 样本 的 学 习 阶 段 ， 输 入 的 信息 从 输入 层 传人 ， 经 各 个 隐 层 计算 后 
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传 至 输出 层 ， 计 算 每 个 单元 的 实际 值 ， 向 各 层 各 单元 分 挫 产 生 的 误差 ; 反 向 传播 误差 阶段 通 
过 网 络 输出 与 目标 输出 的 误差 对 网 络 进行 修改 审查 ,将 正 向 输出 的 误差 再 传播 回 各 层 进 行 权 
重 值 调整 ， 直 到 误差 最 小 化 或 达到 规定 的 计算 次 数 。 微 积分 理论 在 多 层 感知 器 模型 中 运用 较 
多 ,下面 是 3 个 应 用 的 例子 。 

(1 ) 非 线 性 激活 函数 是 中 间 隐 藏 层 的 精髓 ， 由 于 这 些 非 线性 函数 的 帮助 ， 神 经 网 络 才 能 
对 线性 和 非 线性 模型 进行 学 习 ， 训 练 成 功 的 网 络 能 对 待 解 决 问题 进行 拟 合 和 仿真 。 非 线性 激 
活 函 数 要 求 处 处 可 微 ， 主 要 有 Logistic 函数 和 双 曲 正切 函数 。 

Logistic 函数 定义 为 : 


1 
?0 TepCa9 
双 曲 正切 孔 数 定义 为 : 
9(1t) =tanh(a*?t) 和 
(2 ) 权 值 更 新 规则 。 权 值 更 新 规则 定义 为 : 
wnt+1)=w(n)+n* Aw 
其 中 A WV 基于 最 速 下 降 法 ,定义 为 : 
Aw-_asm) otn) ae( 四 
aw 


aw 

(3 ) 神经 元 局 部 梯度 。 梯 度 是 一 个 向 量 场 ， 标 量 场 中 某 一 点 上 的 梯度 指向 标量 场 增长 最 

快 的 方向 梯度 的 长 度 是 这 个 最 大 的 变化 率 。 神 经 元 局 部 梯度 定义 为 : 
dr) 2 全 

2. 线性 代数 

线性 代数 是 高 等 数学 中 的 一 门 成 熟 的 基础 学 科 ， 它 内 容 广 泛 ， 不 但 包含 行列 式 、 和 矩阵 、 
线性 方程 组 等 初等 部 分 ， 而 且 包括 线性 空间 、 欧 式 空间 、 西 空间 、 线 性 变换 和 线性 函数 、)- 
矩阵 、 矩 阵 特征 值 等 更 深入 的 理论 ， 线 性 代数 在 数学 、 物 理学 、 社 会 科学 、 工 程 学 等 领域 也 
有 广泛 的 应 用 。 

线性 代数 理论 是 计算 技术 的 基础 ， 在 机 器 学 习 、 数 据 分 析 、 数 学 建 模 领域 有 着 重要 的 地 
位 ， 这 些 领 域 往往 需要 应 用 线性 方程 组 、 和 矩阵 、 行 列 式 等 理论 ， 并 通过 计算 机 完成 计算 。 下 
面 是 几 个 应 用 线性 代数 的 例子 。 

(1 ) 人 口 模型 描述 人 口 系统 中 人 的 出 生 、 死 亡 和 迁移 随时 间 变化 的 情况 ， 以 及 它们 之 间 
定量 关系 的 数学 方程 式 或 方程 组 ， 分 为 连续 模型 和 离散 模型 。 其 中 离散 模型 适合 于 计算 机 仿 
真 。 在 人 口 离散 模型 中 ， 用 (人), ma(D, za(0,…, xu) 表示 时 刻 的 年 龄 构成 ， 其 中 xf) 表示 
:年 代 年 满 ; 周岁 但 不 到 i+1 周岁 的 人 口 数 ， 写 成 向 量 形式 如 下 : 


Xi(D) 
a 
xn 人 
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则 离散 人 口 模型 可 写成 : 
X(tt1)=H(D)x(D)+pB(D) B(x(t)+g(t) 
Bed 
式 中 H(t)，B(z) 为 以 下 相应 维 数 的 矩阵: 
0 
I-u) 0 0 
H(D)= 1-p(t) 0 
0 
l-Jmilt) 0 
六 balt) bun(t) 人 b(t) "| 
BID) 0 

式 中 AD(=0, 1,…, m-1) 称 为 按 龄 死亡 率 ，m 为 人 类 能 活 到 的 最 高 年 龄 。 

在 这 个 模型 中 ， 通 过 和 矩阵 的 形式 ， 将 时 间 、 出 生 、 死 亡 和 迁移 4 个 因素 及 它们 之 间 的 定 
量 关系 进行 完全 描述 。 

(2) 投入 产 出 技术 是 研究 一 个 经 济 系统 各 部 门 间 的 “投入 ”与 “ 产 出 ”关系 的 数学 模 
型 ， 该 方法 最 早 由 美国 著名 的 经 济 学 家 瓦 ， 列 昂 捷 夫 提 出 ， 是 目前 比较 成 熟 的 经 济 分 析 方 
法 。 投 入 产 出 数学 模型 根据 投入 产 出 原理 建立 的 经 济 数 学 模型 揭示 国民 经 济 各 部 门 、 再 生 
产 各 环节 之 间 的 内 在 联系 ， 进 行经 济 分 析 、 预 测 和 安排 预算 计划 。 

投入 产 出 分 析 通 常 从 投入 产 出 表 分 析 开 始 。 投 入 产 出 表 以 数学 方程 式 的 形式 来 反映 客观 
经 济 运行 过 程 和 经 济 结构 ， 它 是 根据 投入 产 出 表 所 反映 的 经 济 内 容 ， 利 用 线性 关系 而 建立 起 
来 的 两 组 线性 方程 组 。 其 中 ， 行 模型 根据 投入 产 出 表 的 横行 关系 建立 经 济 数 学 模型 ， 其 经 济 
含义 是 揭示 国民 经 济 各 部 门生 产 的 货物 和 服务 的 使 用 去 向 ， 研 究 产 出 分 配 问 题 ; 列 模型 根据 
投入 产 出 表 的 纵 列 建立 经 济 数学 模型 ， 其 经 济 含义 是 揭示 国民 经 济 各 部 门生 产 经 营 过 程 中 发 
生 的 各 种 投入 ， 研 究 国民 经 济 各 部 门生 产 货 物 和 服务 的 价值 形成 问题 。 

(3) 自 回归 模型 是 统计 上 一 种 处 理 时 间 序 列 的 方法 ， 从 回归 分 析 中 的 线性 回归 发 展 而 
来 ， 用 同一 变量 例如 zx 的 前 期 进行 预测 〈 即 x, 至 x 预测 本 期 x, 的 表现 )， 并 假设 它们 为 线 
性 关系 ,模型 中 对 的 当期 值 等 于 若干 个 后 期 值 的 线性 组 合 ， 加 常数 项 ， 加 随机 误差 ， 其 公 
式 定义 为 ;: 


X=c+ QiXiite, 
其 中 : c 是 常数 项 ; 8 被 假设 为 平均 数 等 于 0、 标准 差 等 于 c 的 随机 误差 值 ，o 被 假设 为 
对 于 任何 的 上 都 不 变 。 
(4) 支持 向 量 机 SVM ( Support Vector Machine ) 是 一 种 小 样本 的 机 器 学 习 方 法 ， 它 通 


过 非 线 性 映射 ,把 样本 空间 映射 到 一 个 高 维 乃 至 无 穷 维 的 Hilbert 特征 空间 中 ， 使 得 非 线性 
可 分 转化 为 在 特征 空间 中 的 线性 可 分 。SVM 方法 的 理论 证 明 、 核 函数 设计 等 都 需要 线性 代 
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数理 论 的 支持 。 
SVM 定义 了 以 下 两 个 超 平面 : 
w*x-b=1 
w*x-b=-1 
试图 使 它们 之 间 没 有 任何 样本 点 ， 且 这 两 个 超 平面 之 间 的 距离 最 大 ， 这 样 分 类 问题 转变 
为 二 次 规划 最 优化 问题 ， 在 约束 条 件 下 最 小 化 |w|; 然后 用 标准 二 次 规划 技术 标准 和 程序 解 
决 ， 最 终 表示 为 以 下 训练 向 量 的 线性 组 合 : 


n 
w= > QiCiX; 


i=I 


式 中 大 于 0 的 w 对 应 的 x; 就 是 支持 向 量 。 

3. 概率 论 

概率 论 是 研究 随机 性 或 不 确定 性 现象 的 数学 ， 用 来 模拟 实验 在 同一 环境 下 会 产生 不 同 结 
果 的 情况 。 下 面 这 些 概 率 理论 是 概率 论 的 基础 。 

(1 ) 古典 概率 。 拉 普 拉 斯 试验 中 ， 事件 4 在 事件 空间 5 中 的 概率 P(4) 为 : 

P(A)- 构成 事件 4 的 元 素数 目 

构成 事件 空间 8 的 所 有 元 素数 目 
罩 条 件 概率 
一 事件 4 在 一 事件 B 确定 发 生 后 会 发 生 的 概率 称 为 B 给 之 4 的 条 件 概率 ， 定 义 为 : 


P(ANB 
PCB)= 一 的 

国 概率 公理 

公理 1: 0<P(4) < 1(4 ES) 

公理 2: P(S)=1 

公理 3: P(4UB)=P(4)+P(B)， 如果 4nB=0 

(2 ) 概率 分 布 包 括 二 项 分 布 、 几 何 分 布 、 伯 努 利 分 布 、 泊 松 分 布 、 均 匀 分 布 、 正 态 分 
布 、 指 数 分 布 等 。 样 本 空间 随机 变量 的 概率 分 布 可 用 累积 分 布 函 数 和 概率 密度 函数 进行 分 析 。 

随机 变量 XX 的 累积 分 布 函 数 定义 为 : 

F(x)=P(X<x) 其 中 ，x 为 任意 实数 

设 了 为 连续 型 随机 变量 ， 其 累积 分 布 函 数 为 F(x)， 若 存在 fx(x)， 满足: 


Q 


V-%<a<%, Fda)=| ww TAD 


则 fx) 是 它 的 概率 密度 函数 。 

概率 论 在 机 器 学 习 和 数据 分 析 领 域 有 举足轻重 的 地 位 ， 比 如 马尔 可 夫 链 理论 。 马 尔 可 夫 
链 对 于 现实 世界 的 很 多 现象 都 给 出 了 解释 ， 泊 松 过 程 是 连续 时 间 离 散 状态 的 马尔 可 夫 链 ， 布 
朗 运动 是 连续 时 间 连 续 状 态 的 马尔 可 夫 链 等 。 

马尔 可 夫 链 在 计算 数学 、 金 融 经 济 、 机 器 学 习 、 数 据 分 析 等 领域 都 有 重要 的 应 用 ， 马 尔 
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可 夫 链 是 数学 中 具有 马尔 可 夫 性 质 的 离散 时 间 随 机 过 程 ， 在 给 定 当前 知识 或 信息 的 情况 下 ， 
仅 使 用 当前 的 状态 预测 将 来 ， 在 马尔 可 夫 链 的 每 一 步 ， 系 统 根据 概率 分 布 ， 从 一 个 状态 变 到 
另 一 个 状态 或 保持 当前 状态 。 

马尔 可 夫 链 是 随机 变量 所 交 , 鸡 , .… 的 一 个 数列 ， 这 些 变量 所 有 可 能 取 值 的 集合 为 状态 
空间 ,站 的 值 则 是 在 时 间 n 的 状态 。 设 多 ,i 对 于 过 去 状态 的 条 件 概率 分 布 可 定义 如 下 : 

P(X =x|Xo, Ki, Xa, ..., X,)=P(X, ,=x|X) 
同 理 ， 可 计算 更 多 步 的 转移 概率 : 
PC 六 | PCa, Kori) dX = | PO Xa PO ns Xo) ds 
pO )= | BOE, Bn) | POE lap RAR dN 


4. 统计 学 

统计 学 是 收集 、 分 析 、 表 述 和 解释 数据 的 科学 ， 作 为 数据 分 析 的 一 种 有 效 工 具 ， 统 计 方 
法 已 广泛 应 用 于 社会 科学 和 自然 科学 的 各 个 领域 。 统 计 学 与 概率 论 联 系 紧密 ， 前 者 以 后 者 为 
理论 基础 。 统 计 学 主要 分 为 描述 统计 学 和 推断 统计 学 。 描 述 统计 学 描绘 或 总 结 观察 量 的 集 
中 和 离散 情形 ， 基 础 的 数学 描述 包括 了 平均 数 和 标准 差 等 ;推断 统计 学 将 资料 中 的 数据 模 
型 化 ， 计 算 它 的 机 率 并 且 做 出 对 于 母 群体 的 推论 ， 主 要 包括 假设 检定 、 对 于 数字 特征 量 的 估 
计 、 对 于 未 来 观察 的 预测 、 相 关 性 预测 、 回 归 、 变 异 数 分 析 、 时 间 序 列 、 数 据 控 掘 等 。 

无 论 是 描述 统计 学 还 是 推断 统计 学 都 是 数据 分 析 技术 的 基础 。 通 过 描述 统计 学 方法 ， 数 
据 分 析 专 家 能 对 数据 资料 进行 图 像 化 处 理 ， 将 资料 摘要 变 为 图 表 ， 分 析 数 据 分 布 特征 。 此 外 ， 
还 可 以 分 析 数 据 资料 ， 以 了 解 各 变量 内 的 观察 值 集中 与 分 散 的 情况 等 。 通 过 推断 统计 学 方法 ， 
对 数据 未 知 特征 做 出 以 概率 形式 表述 的 推断 ， 在 随机 抽样 的 基础 上 推论 有 关 总 体 数量 特征 。 


5. 离散 数学 

离散 数学 是 数学 的 几 个 分 支 的 总 称 ， 研 究 基于 离散 空间 而 不 是 连续 的 数学 结构 ， 其 研究 
内 容 非 常 广泛 ， 主 要 包括 数理 逻辑 、 集 合 论 、 信 息 论 、 数 论 、 组 合 数学 、 图 论 、 抽 象 代数 、 
理论 计算 机 科学 、 拓 扑 学 、 运 筹 学 、 博 弈 论 、 决 策 论 等 。 

离散 数学 广泛 应 用 于 机 器 学 习 、 算 法 设计 、 信 息 安全 、 数 据 分 析 等 领域 ， 比 如 : 数理 逻 
辑 和 集合 论 是 专家 系统 的 基础 ， 专 家 系统 是 一 类 具有 专门 知识 和 经 验 的 计算 机 智能 程序 系 
统 ， 一 般 采 用 人 工 智能 中 的 知识 表示 和 知识 推理 技术 ， 模 拟 通常 由 领域 专家 才能 解决 的 复杂 
问题 ; 信息 论 、 数 论 、 抽 象 代数 用 于 信息 安全 领域 ; 与 信息 论 密切 相关 的 编码 理论 可 用 来 设 
计 高 效 可 靠 的 数据 传输 和 数据 储存 方法 ; 数论 在 密码 学 和 密码 分 析 中 有 广泛 应 用 ， 现 代 密码 
学 的 DES、RSA 等 算法 技术 (包括 因子 分 解 、 离 散 对 数 、 素 数 测试 等 ) 依赖 于 数论 、 抽 象 
代数 理论 基础 ; 运筹 学 、 博 弈 论 、 决 策 论 为 解决 很 多 经 济 、 金 融和 其 他 数据 分 析 领 域 的 问题 
提供 了 实用 方法 ， 这些 问题 包括 资源 合理 分 配 、 风 险 防 控 、 决 策 评估 、 商 品 供求 分 析 等 。 

以 上 是 机 器 学 习 需 要 的 核心 数学 知识 ， 但 不 是 全 部 知识 。 随 着 今后 人 类 对 机 器 学 习 的 深 
人 入 研 究 ， 将 有 更 多 的 数学 分 支 进入 机 器 学 习 领 域 。 因 此 ， 仅 掌握 大 学 数学 知识 是 不 够 的 ， 还 
需要 向 更 高 层次 进军 ， 对 于 非 数学 专业 毕业 的 朋友 来 说 ， 还 应 该 学 习 其 他 数学 分 支 理论 ， 比 
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如 说 泛 函 分 析 、 复 变 函 数 、 偏 微分 方程 、 抽 和 象 代数 、 约 束 优化 、 模 糊 数 学 、 数 值 计算 等 。 
建议 读者 购买 以 下 数学 书籍 ， 随 时 翻阅 参考 。 
Finney，Weir，Giordano.《 托 马 斯 微 积分 》. 叶 其 孝 ， 王 炊 东 , 唐 莫 译 .第 10 版 . 北京 : 
高 等 教育 出 版 社 2003-1 
Steven J.Leon.《 线 性 代数 》. 张 文 博 ， 张 丽 静 译 .第 8 版 .北京 : 机械 工业 出 版 社 
William Mendenhall 等 .《 统 计 学 》. 梁 汉 珍 ， 关 静 译 .第 5 版 .北京 : 机 械 工业 出 版 社 
Dimitri P Bertsekas 等 .《 概 率 导论 》. 郑 忠 国 ， 童 行 伟 译 .第 2 版 .北京 : 人 民 邮 电 出 版 社 
Kenneth H.Rosen 等 .《 离 散 数学 及 其 应 用 》. 圳 崇 义 ， 届 婉 玲 ， 张 桂 芸 译 . 第 6 版 .北京 : 
机 械 工业 出 版 社 
Eberhard Zeidler 等 .《 数 学 指南 : 实用 数学 手册 》. 李 文 林 译 . 北京 : 科学 出 版 社 
它们 都 是 机 器 学 习 所 涉及 的 经 典 数学 书 ， 可 以 考虑 将 它们 和 《设计 模式 入 《算法 导论 入 
《深入 理解 计算 机 系统 》 等 经 典 算法 书 放 在 一 起 ， 作 为 案头 必 备 书 。 


3.3 小 结 


机 器 学 习 以 数 学 理论 为 基础 ， 这 里 的 数学 理论 主要 是 应 用 数学 。 应 用 数学 是 应 用 性 较 强 
的 数学 学 科 或 分 支 的 统称 ， 数 学 本 来 起 源 于 实际 应 用 的 需要 ， 应 用 一 直 是 数学 的 发 展 动力 之 
一 ,一 种 数学 理论 和 一 门 数 学 学 科 的 生命 力 的 强 弱 ， 在 很 大 程度 上 依赖 于 它 有 无 应 用 需求 ， 
机 器 学 习 就 是 数学 的 应 用 领域 之 一 。 

应 用 数学 是 应 用 目的 明确 的 数学 理论 和 方法 的 总 称 ， 是 纯 数学 ( 纯 数学 研究 数学 本 身 ， 
不 以 应 用 为 目的 ， 以 其 严格 、 抽 象 和 美丽 著称 ， 主 要 研究 空间 形式 的 几何 类 、 离 散 系统 的 代 
数 类 、 连 续 现象 的 分 析 类 ) 的 相反 ， 包 括 微分 方程 、 向 量 分 析 、 和 矩阵 、 拉 普 拉 斯 变换 、 傅 里 
叶 变换 、 复 变 分 析 、 数 值 方法 、 概 率 论 、 数 理 统 计 、 运 筹 学 、 控 制 理 论 、 组 合 数学 、 信 息 论 
等 许多 数学 分 支 ， 也 包括 从 各 种 应 用 领域 中 提出 的 数学 问题 的 研究 。 随 着 计算 机 技术 的 发 
展 ， 现 在 计算 数学 也 加 入 了 应 用 数学 的 行列 。 

一 位 MIT 的 牛人 在 BLOG 中 曾 提 到 ， 数 学 似乎 总 是 不 够 的 ， 为 了 解决 和 研究 工程 中 的 
一 些 问 题 ， 不 得 不 在 工作 后 ， 重 新 回 到 图 书馆 兵 起 了 数学 教科 书 。 他 深 深 感到 ， 从 大 学 到 工 
作 ， 课 堂上 学 的 和 自学 的 数学 其 实 不 算 少 了 ， 可 是 在 机 器 学 习 领 域 总 是 发 现 需要 补充 新 的 数 
学 知识 。 看 来 ， 要 精通 机 器 学 习 知 识 ， 必 须 在 数学 领域 学 习 、 学 习 、 再 学 习 ， 这 一 切 都 是 很 
艰苦 的 。 要 学 好 机 器 学 习 必 须 做 好 艰苦 奋斗 的 准备 ， 坚 持 对 数学 知识 的 追求 。 

本 章 对 机 器 学 习 中 需要 掌握 的 相关 数学 知识 提出 了 要 求 ， 同 时 也 推荐 了 有 关 数 学 书籍 。 
不 要 因为 学 习 数 学 麻烦 、 难 度 大 就 不 去 接触 它 ， 数 学 才 是 工程 师 软 实力 的 体现 。 古 人 云 : 
“ 磨 刀 不 误 砍 柴 工 ”， 这 个 “ 刀 ” 就 是 数学 知识 。 
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计算 平台 应 用 实例 


4.1 Python 计算 平台 简介 及 应 用 实例 


目前 ， 科 学 计算 平台 很 多 ， 在 本 书 中 ， 使 用 Python 编写 的 机 器 学 习 算 法 用 到 的 计算 平 
台 有 : Numpy 等 科学 计算 包 、OpenCYV 的 Python 绑 定 库 、mlpy 机 器 学 习 库 、BeautifulSoup 
网 页 解析 库 、Neurolab 神经 网 络 库 等 ， 所 有 平台 均 为 开源 免费 软件 。 本 章 将 讲解 这 些 计算 平 
台 的 操作 ， 并 解析 一 些 基础 实例 应 用 。 


4.1.1 Python 语言 基础 


1989 年 圣诞 节 期 间 ， 吉 多 。 范 罗 苏 姆 为 了 打发 假 晶 时间， 决心 开发 一 个 新 的 脚本 解释 
程序 ， 作 为 ABC 语言 的 一 种 继承 ， 就 这 样 ，Python 在 吉 多 手中 诞生 了 。Python 的 设计 哲 
学 是 优雅 、 明 确 、 简 单 。Python 提供 了 丰富 的 API 和 工具 ， 使 程序 员 能 使 用 C 语言 、C++、 
Cython 编写 扩充 模块 。Python 编译 器 本 身 也 可 以 被 集成 到 其 他 需要 脚本 语言 的 程序 中 。 此 
外 ， 很 多 人 把 Python 作为 一 种 “胶水 语言 ”使 用 ， 用 它 将 其 他 语言 编写 的 程序 进行 集成 和 
封装 。 . 

Python 包含 了 一 组 完善 而 且 容 易 理解 的 标准 库 ， 能 够 轻松 地 完成 很 多 常见 的 任务 ， 且 代 
码 语 法 简洁 、 清 晰 ， 使 用 缩 进 定义 语句 块 ， 具 备 很 高 的 可 读 性 。 由 于 Python 语言 具有 简洁 、 
易 读 以 及 可 扩展 性 ， 在 国内 外 用 Python 做 科学 计算 的 研究 机 构 、 商 业 公 司 日 益 增 多 ， 比 如 : 
三 大 经 典 科学 计算 库 Numpy、SciPy 和 matplotlib 均 扩展 了 Python， 通 过 Python 可 以 轻松 
完成 快速 数组 处 理 、 数 值 运算 和 绘图 任务 。 


1. Python 基本 数据 类 型 

Python 是 解释 运行 的 动态 语言 ， 解 释 器 的 提示 符 为 “>>>”。Python 的 基本 数据 类 型 包 
括 数 字 型 、 字 符 串 型 和 列表 ， 此 外 还 可 以 用 类 型 表示 函数 、 模 块 、 类 型 本 身 、 对 象 的 方法 、 
编译 后 的 Python 代码 、 运 行 时 信息 等 。 

(1) 数字 型 ， 可 将 Python 作为 一 个 计算 器 使 用 ， 在 计算 过 程 中 可 使 用 “+”( 加 )、“-” 
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( 减 )、“*”( 乘 )、“/”( 除 )、“(”、“)》” 以 及 “%”( 取 余 ) 等 操作 符 。 此 外 ，Python 用 “#” 
表示 其 后 的 内 容 是 注释 。 下 面 代码 演示 了 其 基本 的 计算 功能 和 注释 的 使 用 。 

>>> 2+2 

4 

>>> # 本 行 是 注释 

. 2+8 
10 
>>> (50-5*6) /2 


>>> 9%2 
于 


Python 使 用 “=” 进 行 赋值 操作 ， 赋 值 操作 不 会 返回 任何 结果 ， 也 可 以 在 同一 行 中 连接 
赋值 ， 赋 值 语句 将 从 右 到 左 依次 完成 赋值 。 下 面 的 代码 对 变量 进行 复数 和 实数 的 赋值 。 

>>> c=5 .2-6.5j### 复 数 

A 

>>> c.real### 实 部 

.这 

>>> c.imag### 虚 部 

=6.5 

>>>x =y= z=0 


变量 在 使 用 前 ， 要 处 于 定义 状态 ( 即 已 经 赋值 )， 否 则 会 出 错 。 下 面 代码 试图 对 未 定义 
的 变量 myx 进行 操作 结果 出 错 了 。 
>>> myx # 访问 未 定义 的 变量 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


NameError: name 'myx' is not defined 

在 Python 计算 中 可 使 用 浮 点 数 。 如 果 在 计算 过 程 中 出 现 了 浮 点 数 ， 则 整 型 会 自动 转换 
为 浮 点 型 计算 ; 如 果 全 是 整 型 ， 则 计算 结果 也 为 整 型 。 在 下 面 例子 中 ， 第 一 行 代码 两 个 操作 
数 均 为 整 型 ， 返 回 的 结果 并 不 会 精确 为 整 型 ， 而 在 第 二 行 代码 中 ， 第 一 个 操作 数 7.0 为 浮 点 
型 返回 的 结果 为 浮 点 数 。 


>>> 7/3 

2 

Se 7 了 .073 
2.3333333333333335 


复数 运算 使 用 (real+Himagj) 的 形式 ， 也 可 使 用 complex(real, imag) 创建 一 个 复数 对 象 ， 
其 中 real 表示 实 部 ，imag 表示 虚 部 。 下 面 是 一 些 复数 计算 的 例子 。 
>>> 2+6J 
(2+6j) 
>>> 2-6J 
(2-63} 
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>>> 1j * complex(0,1) 
(—14+091) 
SBS 3F1]*3 
(3+3j) 
>>> a=1.5+0.5j 
>>> a.real 
La5 
>>> a.imag 
0.5 


变量 “_” 表 示 刚 计算 的 结果 。 下 面 代 码 通 过 计算 (3+2) x 6 演示 了 该 变量 的 使 用 。 
>>> 3+2 

5 

>>> _*6 

30 


(2 ) 字符 串 型 。Python 的 字符 串通 常用 单 引号 和 双 引 号 包围 的 形式 表示 ， 通 过 print 语 
句 可 将 字符 串 输出 到 输出 设备 中 (默认 情况 下 输出 到 屏幕 )。 此 外 ，Python 2.0 及 以 后 的 版 
本 支持 Unicode 字符 串 ， 中 文字 符 一 般 使 用 Unicode 编码 (国际 组 织 制 定 的 容纳 世界 所 有 文 
字 和 符号 的 字符 编码 方案 ， 用 0 一 0x10FFFF 映射 字符 ， 最 多 可 以 容纳 1114112 个 字符 )， 在 
前 面 加 u 表示 后 面 是 Unicode 字符 串 。 下 面 的 代码 演示 了 Unicode 字符 的 定义 与 使 用 、 字 符 
串 的 输出 等 操作 。 


>>> 'spam eggs' 

'spam eggs ' 

>>> '"Yes," he said.' 

'"Yes," he said.' 

>>> print u" 你 好 " 

你 好 

>>> print u" 机 器 学 习 " 

机 器 学 习 

Python 的 字符 串 可 视 为 列表 (数组 )， 使 用 “[ 索引 ] ”的 方式 能 对 它 进 行 切片 操作 〈 索 
引 从 0 开始 ) 使 用 “+” 可 对 字符 串 进 行 连接 。 下 面 的 代码 演示 了 字符 串 的 连接 、 切 片 等 操作 。 

>>> word = "Help' + 'A!' 

>>> word 

"HelPRA' 

FF <! + WOLrd*5 + “>"' 

'<HelpAHelpAHelpAHelpAHelpA>' 


>>> word[-2:] # 最 后 2 个 字符 
和 A' 
en word[:-2] # 除 去 最 后 2 个 字符 以 外 的 字符 
'Hel， 
Python 的 字符 串 可 使 用 转 义 字符 ， 方 法 是 在 特殊 字符 前 加 上 “\”。 主 要 的 转 义 字符 有 : 
\ 单 引 号 
\" ” 双 引 号 


\a ”发 出 系统 响 铃 声 
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\b ” 退 格 符 

\n ”换行 符 

\t ”横向 制 表 符 
\ ”纵向 制 表 符 
\r ” 回 车 符 

ff ” 换 页 符 

W 


\o ”八进制 数 代表 的 字符 

x 十 六 进 制 数 代表 的 字符 

\000 终止 符 ，\000 后 的 字符 串 全 部 忽略 

此 外 ，Python 的 字符 串 相 比 其 他 程序 语言 多 了 一 种 描述 方式 ， 就 是 用 3 个 引号 标示 字 
符 串 ， 其 功能 是 将 字符 串 内 容 原样 输出 ， 如 果 字 符 串 本 身 包 括 换行 ， 则 输出 换行 ， 如 果 包 括 
特殊 字符 ， 则 字符 串 无 需 使 用 转 义 字符 。 下 面 的 代码 演示 了 中 文字 符 串 的 输出 、 转 义 字 符 的 
使 用 、 字 符 串 切片 、 统 计 长 度 、 三 引号 使 用 等 操作 。 


>>> 'doesn\'t' 

"doesn't" 

>>> "\"Yes,\" he said." 

'WYes," he said.' 

>>> print un 你 好 ,PythonNn 机 器 学 习 " 
你 好 ,Python 

机 器 学 习 

>>> Brint u""" 你 好 ,Python 

。。。 机 器 学 习 """ 

你 好 ,Python 

机 器 学 习 

>>> mystr= un 你 好 ,PythonNn 机 器 学 习 " 
>>> print mystr 

你 好 ,Python 

机 器 学 习 

>>> print mystr[:5] 

你 好 , Py 

>>> print mystr[3:5] 

Py 

>>> len (mystr) ###1len 函 数 计算 字符 串 长 度 
14 


Python 字符 串 的 三 引号 表示 方式 意义 重大 ， 用 它 可 以 在 CGI ( CGI 允许 Web 服务 器 执 
行 外 部 程序 ， 并 将 它们 的 输出 发 送 给 Web 浏览 器 ) 程序 中 轻松 输出 HTML 代码 。 下 面 是 
CGI 的 “Hello World” 程 序 : 


#!/usr/bin/env python 

print "Content-Type: text/html" 
print 

print "xhtmnl> 
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<body> 
<h2>Hello World!</h2> 
</body> 
</html> 


(3 ) 列表 。Python 可 将 不 同类 型 ( 包括 复合 类 型 本 身 ) 的 值 组 成 复合 类 型 ， 列 表 就 是 复 
合 类 型 之 一 。 与 字符 串 相同 ， 列 表 可 以 使 用 切片 操作 ， 其 索引 也 是 从 0 开始 的 。 此 外 ， 统 计 
列表 的 长 度 使 用 len 函数， 使 用 “*” 将 生成 新 列表 ， 其 元 素 由 源 列 表 重 复 填 充 ， 使 用 “+” 
可 连接 列表 。 下 面 的 代码 演示 了 列表 的 定义 、 连 接 、 重 复 填 充 、 切 片 、 统 计 长 度 等 操作 。 


>>> a = ['hello', '‘'world', 100, 1234] 
33 豆 

['hello', 'world', 100, 1234] 
>>> a[:2] + [5-!，2*2]### 连 接 列表 
[TelJLec world', YE 一 人 

>>> mylist=[1,23,45] 

>>> mylist 

[Ls 23, 4245] 

>>> mylist*2### 重 复 填 充 列表 

[ls 235 A457 1 237 4 

>>> mylist[:2]### 列 表 切 片 

[Ll, 231] 

>>> x = [12, 13] 

>>> y = [11, x, 14] 

>>> len (y) ### 求 列表 长 度 

3 

>>> y[1] 

[Ll2, 13] 

S23 天 以 [0 

12 


列表 和 字符 串 也 可 称 为 序列 ， 序 列 由 若干 个 元 素 组 成 ， 每 个 元 素 的 先后 顺序 明确 ， 不 能 
更 改 。 


2. Python 语句 
(1) 条 件 语句 。 证 语句 的 作用 是 判断 条 件 是 否 成 立 ， 如 果 成 立 ， 则 执行 后 面 的 语句 块 ; 
if ... elif ... elif 语句 可 用 于 对 多 个 条 件 进 行 判 断 ， 并 执行 最 先 满足 条 件 的 语句 块 ; else 语句 
表示 所 有 条 件 都 不 成 立时 执行 。 下 面 的 例子 展示 了 计 语 句 的 使 用 方法 ， 功 能 是 对 输入 数字 
的 范围 进行 判断 ， 并 将 其 中 的 负数 转变 为 0。 
>>> x = int(raw input ("Please enter an integer: ")) 
Please enter an integer: -10 
SS HE < Os 
x=0 
print 'Negative changed to zero' 
+ elif x == 0: 
print 'Zero' 
. ©@l1if Xx == 1: 
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print 'Single' 
. else: 
print 'More' 


Negative changed to zero 
>>> Eor NH in. range(2, 10}: 
for x in range(2, n): 
if n % x == 0: 
print rs ,equals'; Xr ‘*'y N/K 
break 
else: 
# loop fell through without finding a factor 
print n, 'is a prime number' 


is a prime number 
is a prime number 
equals 2 *2 
is a prime number 
equals 2 * 3 
is a prime number 
equals 2 * 4 
equals 3 * 3 


(2 ) 循环 语句 。for 语句 表示 循环 ， 它 与 C 语言 中 的 for 语句 略 有 不 同 。C 语言 的 for 语 
名 可 定义 步 长 和 终止 循环 条 件 ， 而 Python 的 for 语句 在 Python 的 序列 (列表 、 字 符 串 等 ) 
中 和 迭代， 每 次 只 操作 其 中 一 项 。 下 面 的 代码 在 单词 列表 中 迭代 ， 每 次 迭代 输出 单词 及 其 长 度 。 


>>> # Measure some strings: 
. Words = ['cat', 'window', 'hello'] 
>>> for w in words: 


OO oo~omnmwmwN 


print w, len (w) 
Bat 3 
window 6 
hello 5 


也 可 以 在 迭代 过 程 中 修改 序列 。 下 面 的 例子 运行 结果 是 在 列表 迭代 过 程 中 修改 了 列表 
本 身 。 


>>>words = ['cat', 'window', 'hello'] 
>>> for w in words[:]: 
if len(w) > 6: 
words.insert (0, w) 

a words 

['defenestrate', 'cat', 'window', 'defenestrate'] 

(3 ) range 函数 。for 语句 仅 能 在 列表 等 序列 中 进行 迭代 ， 从 表面 上 来 看 ， 它 比 C 语 言 
的 for 循环 功能 弱 很 多 ， 其 实 不 然 ， 有 了 range 函数 ， 其 功能 远 比 C 语言 的 for 循环 强大 。 
range 天数 可 产生 符合 某 种 规律 的 列表 等 序列 。 下 面 代 码 产 生 0~9 共 10 个 数字 ， 增 长 步 长 
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为 1。 


>>> range (10) 
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 


range 函数 还 可 以 产生 更 复杂 的 序列 ， 常 用 调用 格式 为 : 
range (起 始 值 ， 元 素数 量 ， 步 长 ) 


其 中 起 始 值 和 步 长 可 以 省 略 ， 起 始 值 默认 为 0， 步 长 默认 为 1。 


>>> range (5, 10) 

[5 @, Tr Br 9] 

>>> range (0, 10, 3) 

(Or 3 Fr 9 

>>> range(-10, -100, -30) 
[=10, =40, =70] 


下 面 的 代码 是 range 函数 与 for 语句 组 合 的 应 用 ， 输 出 列表 元 素 的 索引 及 值 。 
>>> a = ['Mary', 'had', 'a', 'little', 'lamb'] 
>>> for i in range (len(a)): 

print i, al[lil] 


little 
lamb 


下 面 的 代码 完成 1 至 10 中 偶数 的 累加 。 


>>> mysum=0 
>>> for i in range(l1,10,2): 


0 
1 
2 a 
3 
4 


mysum=mysum+i 
>>> mysum 
25 


(4) break 与 continue。break 语句 结束 本 层 循环 ，continue 语句 忽略 下 面 的 语句 继续 本 
层 的 下 次 循环 。 下 面 的 代码 使 用 break 语句 ， 查 找 2 至 10 以 内 的 素数 ， 如 果 不 是 素数 ， 则 


分 解 因数 。 


>>> for n in range(2, 10): 
for x in range(2, n): 
if n % x == 
print rs SLS Xr “*', /xX 
break 
else: 
# loop fell through without finding a factor 
print n, "is a Prime number' 
is a prime number 
is a prime number 
equals 2 * 2 
is a prime number 


OOOO: 
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6 equals 2 * 3 
7 is a prime number 
8 equals 2 * 4 
9 equals 3 * 3 


下 面 的 代码 使 用 了 continue 语句 ， 判 断 50 至 60 之 间 的 数 哪些 是 奇数 ， 哪 些 是 偶数 。 


>>> for num in range (50, 60): 
if nums2== 0: 
Print "偶数 "num 
Continue 
print "奇数 " ,num 
偶数 50 
奇数 51 
偶数 52 
奇数 53 
偶数 54 
奇数 55 
偶数 56 
奇数 57 
偶数 58 
奇数 59 


(5 ) while 循环 。 在 while 循环 中 会 一 直 执 行 后 面 的 语句 块 ， 直 到 条 件 不 满足 才 终 止 。 
下 面 的 代码 用 于 清理 列表 ， 并 且 仅 保留 奇数 。 


>>> a=range (20) 
>>> £0 XK in als]: 
if x%2== 0: a.remove (x) 
>>> a 
Ll; Br Si Ts Bs Tis 3; 15s LL7 1 


(6) 函数 定义 。Python 使 用 def 关 键 字 定 义 函 数 。 下 面 的 代码 定义 了 屏幕 输出 函数 
show， 参 数 是 要 输出 的 内 容 。 


>>> def Show (mess="hel1lo") : 
print mess 

>>> Show() 

hello 


>>> show (" 机 器 学 习 ") 
机 器 学 习 


下 面 的 代码 定义 了 斐 波 那 契 数列 的 计算 函数 fib。 


>>> def fib(n) : 
"""Print a Fibonacci series up to n.""" 
ar B=0, 1 
while a < n: 
print a, 
a, b = b, a+b 
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>>> fib(2000) 
011235'91321 34 55 89 144 233 .377 610 987 1597 


3. Python 的 元 组 、 集 合 以 及 字典 

(1) tuple 元 组 。tuple 元 组 类 似 列表 ， 不 同 的 是 它 的 内 容 不 能 修改 。Python 元 组 的 定义 
方式 是 使 用 括号 包含 元 素 或 直接 列举 元 素 。 下 面 的 代码 将 定义 x 为 元 组 类 型 ， 当 对 x[0] (x 
的 第 一 个 元 素 ) 进行 修改 时 ，Python 解释 器 提示 错误 。 


>>> x = 10, 20, 'learn' 

>>> x[0] 

10 

>>> x 

(10, 20, 'learn') 

>>> xl1,x2,xX3=x 

>>> Zl 

10 

>>> x2 

20 

>>> x3 

'learn' 

>>> x[0]=90 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: 'tuple' object does not support item assignment 

>>> 


(2 ) Sets 集合 。Python 使 用 方 括号 定义 Sets 集合 ,集合 的 特点 是 无 重复 元 素 ， 集合 中 
的 元 素 无 先后 顺序 ， 也 不 能 用 索引 进行 管理 。 下 面 的 代码 定义 了 一 个 水 果 列 表 ， 通 过 set 函 
数 转 换 为 集合 ， 去 除 重复 元 素 。 


>>> basket = ['apple', 'orange', ‘'apple', 'pear', '‘'orange', 'banana'] 
>>> fruit = set (basket) 
>>> fruit 


set(['orange', 'pear'’', 'apple', 'banana']) 


下 面 的 代码 通过 in 操作 检查 成 员 与 集合 的 关系 。 


>>> 'orange' in fruit ### 集 合 类 是 否 有 成 员 'orange' 
True 

>>> 'crabgrass' in fruit### 集 合 类 是 否 有 成 员 'crabgrass' 
False 


既然 是 集合 ， 当 然 能 对 它 进行 集合 的 数学 运算 。Python 集合 支持 union (联合 或 并 )、 
intersection( 交 )、difference ( 差 ) 和 sysmmetric difference ( 对 称 差 ) 等 操作 ， 可 通过 “-”、 
“|”"、“&”、“^” 操 作 符 计算 集合 的 差 集 、 并 集 、 交 集 和 对 称 差 集 。 下 面 的 代码 演示 了 对 集合 


a 和 ob 的 运算 。 
>>> a set ('abracadabra') 


>>> b = set('alacazam') 
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>>> a 

seti([a', 'r', br, we», “a']) 

>>> a - b # 差 集 
Set{ DE or 1? 

5 a | 交 # 并 集 
set(tl a. ey AT dV my Mm oy WL 
>>>agb # 交集 
SET EC 

>>> a ^ Db # 对 称 差 集 


set(['r', 'd', ‘br, im', ‘21, '1']) 

(3 ) Dictionaries 字典 。Dictionaries (字典 ) 是 一 种 散 列 结构 ， 可 理解 为 Hash ( 散 列 ) 
类 型 。 字 典 由 若干 个 键 值 对 组 成 ， 键 值 对 是 一 种 映射 ， 一 个 键 对 应 于 一 个 值 。 键 值 对 由 两 个 
部 分 组 成 ， 第 一 部 分 是 键 ， 键 在 字典 中 必须 保持 唯一 ， 字 典 与 列表 和 元 组 不 同 ， 列 表 和 元 组 
属于 序列 ， 元 素 以 先后 顺序 来 管理 ， 而 字典 的 元 素 是 以 键 为 单位 对 值 进行 管理 的 ; 第 二 部 分 
为 值 ， 值 与 键 一 一 对 应 ， 值 可 以 彼此 相同 。 

Python 使 用 花 括号 定义 字典 ， 使 用 类 似 索 引 的 方式 存 取 值 ， 但 索引 为 键 。 此 外 ， 可 使 
用 del 操作 删除 键 值 对 ， 使 用 keys() 方法 返回 字典 变量 存储 的 所 有 键 。 下 面 的 代码 演示 了 一 
个 学 生 学 号 的 字典 变量 ， 以 及 如 何 对 学 生 信息 进行 删除 、 查 询 等 操作 。 


>>> tel = {' 张 三 ': 4098， ' 李 四 !: 4139} 
>>> tel 
{'\xd5\xc5\xc8\xfd': 4098, '\xc0\xee\xcb\xc4': 4139} 
>>> tel[' 张 三 '] 
4098 
>>> del tel[' 张 三 '] 
>>> -el [" 张 三 中 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
KeyError: ‘'\xd5\xc5\xc8\xfd' 
>>> tel.keys() 
['\xc0\xee\xcb\xc4'] 
>>> tel[' 王 华 ']=1000 
>>> tel.keys () 
['\xcd\xf5\xbb\xaa', '\xc0\xee\xcb\xc4'] 
>>> print tel.keys() [0] 
王 华 


上 面 代 码 中 ,“\xcd” 等 为 汉字 在 Python 内 部 的 编码 。 


4. Python 类 
Python 语言 有 强大 的 面向 对 象 编程 能 力 。Python 和 C++ 等 语言 一 样 拥有 类 机 制 ， 
Python 类 的 定义 方式 如 下 : 


class 类 名 : 
# 类 成 员 变 量 
变量 A=A 初 始 值 
变量 B=B 初 始 值 
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# 下 面 定义 了 类 成 员 函 数 
def _init (self， 参 数 1， 参数 2，.. . ,参数 n) : 
# 类 构造 函数 


# 析 构 函数 
def 方法 1 (self, 参数 1， 参 数 2，. . . ,参数 n) : 
# 类 的 方法 


下 面 的 代码 定义 了 一 个 复数 类 Complex， 同 时 定义 了 类 的 实例 变量 x， 最 后 输出 该 变量 
的 实 部 和 虚 部 。Complex 类 很 简单 ， 在 类 构造 函数 中 对 实 部 成 员 和 虚 部 成 员 进行 赋值 。 


>>> class Complex: 
r=0 
i=0 
def init (self, realpart, imagpart): 
self.r = realpart 
和 self.i = imagpart 
>>> X = Complex (3.0, -4.5) 
>>> Kars ZX, 
(3.0, -4.5) 


5. Python 异常 处 理 

Python 的 异常 处 理 能 力 很 强大 ， 可 准确 反馈 出 错 信息 。 在 Python 中 ， 异 常 是 对 象 ， 可 
对 它 进行 操作 。 所 有 异常 都 是 基 类 Exception 的 成 员 ， 从 基 类 Exception 继承 ， 在 exceptions 
模块 中 定义 。Python 异常 处 理 的 格式 如 下 : 


try : 

# 下 面 为 可 能 发 生 异 常 的 语句 块 
except | 异常 类 型 : 

# 下 面 为 处 理 异 常 的 语句 块 


下 面 的 代码 将 检查 输入 是 否 为 有 效 数字 。 程 序 通 过 将 输入 转换 成 整 型 来 测试 是 否 为 数 
字 ， 如 果 不 是 数字 ，int 函数 将 触发 异常 ValueError， 异 常 处 理 程序 提示 “ 哦 ! 输入 不 是 有 效 
数字 ， 请 重新 输入 (Oops! That was no valid number，Try again...)”， 直 到 输入 正确 格式 的 数 
字 后 ， 程 序 才 退出 。 


>>> while True: 
trEys 
x = int(raw input("Please enter a number: ")) 
break 
except ValueError: 
print "Oops! That was no valid number. Try again..." 
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前 面 演 示 了 异常 的 被 动 触发 ，Python 还 能 主动 触发 异常 ， 处 理 方式 为 : 先 通过 raise 语 
句 抛 出 异常 ， 然 后 用 except 捕捉 异常 。 下 面 的 代码 演示 raise 主动 抛 出 NameError 异常 后 被 
捕捉 ， 输 出 “An exception flew by!” 后 ， 继 续 抛 出 异常 ， 以 便 给 更 外 层 的 异常 处 理 函 数 继 
续 处 理 。 


>>> try: 
raise NameError ('HiThere') 
。 except NameError: 
print 'An exception flew by!' 
raise 


An exception flew by! 

Traceback (most recent call last): 
File "<stdin>", line 2, in ? 

NameError: HiThere 


以 上 简要 介绍 了 Python 编程 语言 的 基本 语法 ， 它 和 C++ 有 几 分 相似 ， 有 一 定编 程 基 础 
的 读者 应 该 都 能 看 懂 。Python 是 一 门 上 手 很 快 的 编程 语言 ， 它 与 其 他 语言 最 大 的 不 同 就 是 
它 区 分 语句 块 时 使 用 的 不 是 括号 ， 而 是 每 行 语句 前 面 的 空格 数量 。 因 此 ，Python 代码 非常 
工整 和 漂亮 ， 它 严格 遵守 代码 语句 块 的 缩 进 原则 ， 可 依靠 缩 进 判断 语句 块 的 范围 。 


4.1.2 Numpy 库 


本 书 中 介绍 的 机 器 学 习 算 法 大 部 分 是 调用 Numpy 库 来 完成 基础 数值 计算 的 。 下 面 了 解 
一 下 Numpy: 库 的 基本 使 用 方法 。 


1. ndarray 数组 基础 

Python 中 用 列表 保存 一 组 值 ， 可 将 列表 当成 数组 使 用 。 此 外 ，Python 有 array 模块 ， 但 
它 不 支持 多 维 数组 ， 无 论 是 列表 还 是 array 模块 都 没有 科学 运算 函数 ， 不 适合 做 矩阵 等 科学 
计算 。 因 此 ，Numpy 没有 使 用 Python 本 身 的 数组 机 制 ， 而 是 提供 了 ndarray 数组 对 象 ， 该 
对 象 不 但 能 方便 地 存 取 数 组 ， 而 且 拥 有 丰富 的 数组 计算 函数 ， 比 如 向 量 的 加 法 、 减 法 、 乘 
法 等 。 

使 用 ndarray 数组 ， 首 先 需要 导入 Numpy 函数 库 ， 可 以 直接 导入 该 函数 库 ( 本 节 频 繁 使 
用 Numpy 库 的 函数 ， 因 此 采用 这 种 方法 )。 

from numpy import * 

或 者 指定 导入 库 的 别名 。 

import numpy as np 

下 面 正式 进入 Numpy 的 数组 世界 。 如 果 没 有 说 明 ， 所 称 数组 均 为 Numpy 的 数组 对 象 ， 
与 Python 的 列表 和 array 模块 无 关 。 

(1) 创建 数组 。 创 建 数组 是 进行 数组 计算 的 先决 条 件 ， 可 通过 array() 函数 定义 数组 实 
例 对 象 ， 其 参数 为 Python 的 序列 对 象 ( 比如 列表 )。 如 果 想 定义 多 维 数组 ， 则 传递 多 层 般 套 
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的 序列 。 例 如 下 面 这 条 语句 定义 了 一 个 二 维 数组 ， 其 大 小 为 (2, 3)， 即 共有 2 行 ， 每 行 
各 3 列 。 
a = np.arrayt[ll 1 To, Orl -2 Top 25.]1) 


上 面 语 句 定义 了 如 表 4-1 所 示 的 数组 。 
表 4-1 二 维 数 组 结构 


5 


接着 使 用 array() 函数 创建 一 个 (2,3) 大 小 的 数组 变量 x。 
>>> from numpy import * 
>>> x=np.array([[ Lar Our Qel Qs ds 26]]3 


以 刚才 定义 的 x 变量 为 例 ， 来 熟悉 ndarray 数组 对 象 的 主要 属性 。ndarray 数组 对 象 拥有 
ndarray.ndim、ndarray.shape、ndarray.size 、ndarray.dtype 、ndarray.itemsize 、ndarray.data 等 
属性 。 

ndarray.ndim : 数组 的 行 数 。 


>>> x.ndim 
2 


ndarray.shape: 数组 的 维 数 ， 返 回 的 格式 为 (n,m)， 其 中 为 行 数 ，m 为 列 数 。 


>>> x.shape 
(2, 3) 


ndarray.size: 数组 元 素 的 总 数 。 


>>> x.size 
6 


ndarray.dtype: 数组 元 素 的 类 型 ， 比 如 : numpy.int32 ( 32 位 整 型 )、numpy.int16 (16 位 
整 型 ) 及 numpy.float64 ( 64 位 浮 点 型 )。 


>>> x.dtype 
dtype('float64') 


ndarray.itemsize: 数组 中 每 个 元 素 占 有 的 字 节 大 小 。 


>>> x.itemsize 
8 


ndarray.data: 数组 元 素 的 缓冲 区 。 


>>> x.data 
<read-write buffer for Ox0557EAE8, size 48, offset 0 at Ox0561BAEO> 


下 面 是 一 个 关于 Numpy 的 ndarray 数组 的 例子 ， 演 示 了 ndarray 数组 的 基本 操作 。 
首先 ， 创建 a 和 两 个 数组 对 象 。 其 中 ，a 对 象 使 用 Numpy 的 arange 函数 产生 了 等 差 
序列 数组 ( Numpy 的 arange 函数 与 Python 的 range 函数 类 似 ， 其 参数 依次 为 开始 值 、 结 束 
值 、 步 长 )， 并 用 reshape 函数 创建 了 指定 形状 的 新 数组 。a 的 大 小 为 (3,5); b 的 大 小 为 (1,3)。 
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>>> a = arange (15) .reshape (3, 5) 
>>> a 
array't[l Or 1¥, 2 3 4]v 
[ 8S, GG 7, dB Sl 
[10.--117 :12, 13, 14]]1) 
>>> b = array([6, 7, 8]) 
>>> b 
array( [6, 7 81) 


接着 读 取 a 和 上 的 主要 属性 ， 如 : shape、ndim、dtype、itemsize 等 。 此 外 ， 下 面 的 代 
码 还 演示 了 type 函数 的 使 用 ，type 函数 会 返回 对 象 的 类 型 ， 对 于 ndarray 对 象 而 言 ， 其 类 型 
为 numpy.ndarray。 


>>> a.shape 
(3, 5 

>>> a.ndim 

2 

>>> a.dtype.name 
“nt32" 

>>> a.itemsize 
4 

>>> a.size 

15 

>>> type (a) 
numpy.ndarray 
>>> type (b) 
numpy.ndarray 


最 后 ， 对 a 和 b 对象 重 新 赋值 ， 以 便 进一步 了 解 ndarray 数组 的 元 素 类 型 。 下 面 分 别 演 
示 了 int32、float64 等 类 型 的 使 用 方法 ， 最 后 演示 了 不 常见 的 复数 作为 数组 元 素 (数组 c 的 
元 素 ) 的 情况 。 

>>> a = array( [2,3,4] ) 

>>> a 

array ([2, 3, 4]) 

>>> a.dtype 

dtype ('int32') 

>>> b = array ([1,.2; S33 Sol) 

>>> b.dtype 

dtype('float64') 

>>> c = array( [ [1,2], [3,4] ], dtype=complex ) 

>>> C 

array (tf 1.+0 Jr 2.+0,3j)s 

[ S50 ji} 


(2 ) 特殊 数组 。Numpy 的 特殊 数组 主要 有 以 下 几 种 : 

口 zeros 数组 : 全 零 数组 ， 元 素 全 为 0， 使 用 zeros 函数 创建 。 

口 ones 数组 : 全 1 数组 ,元素 全 为 1， 使 用 ones 函数 创建 。 

口 empty 数组 : 空 数组 ， 元 素 全 近似 为 0 使 用 empty 函数 创建 。 
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下 面 的 代码 依次 演示 了 全 零 数 组 、 全 1 数组 、 空 数组 的 创建 方法 。 


>>> zeros( (3,4) ) 
array([[0.， 0., 0.， 0.], 

人 

[Oss Osxr dar Ql hh) 
>>> ones( (2,3,4), dtype=int16 ) 
EYE ls ds Ls Ts 

E dr Tr TM; Tle 

L Ls Tr Bs ds 

EE dy he Wi Th 

5 hg hs Bs ds 

[ 1, 1, 1, 1]]], dtype=int16) 
>>> empty( (5,3) ) 
array([[ .42185083e-299, 

[ .02082633e-300， 


1 .41906197e-299, 
6 

5.77440917e-300， 

5 

1 


.41971817e-299， 
.77386233e-300， 
.77440917e-300, 
.77440917e-300, 


.77420410e-300]， 
.77379398e-300]， 
.77440917e-300]， 
.77386233e-300]， 
.77406740e-300]]) 


MoonpPppP 


.77386233e-300, 
.42130399e-299， 


mmwmwmn wm 


[ 
[ 
[ 


a 


(3 ) 序列 数组 。 刚 才 已 经 提 到 过 arange 函数 ， 它 与 Python 的 range 函数 相似 ， 但 它 属 


于 Numpy 函数 库 ， 其 参数 依次 为 开始 值 、 结 束 值 、 步 长 。 此 外 ， 还 可 使 用 linspace 函数 创 
建 等 差 序列 数组 ， 其 参数 分 别 为 起 始 值 、 终 止 值 、 元 素数 量 。 下 面 的 代码 分 别 演示 了 arange 
函数 和 linspace 函数 的 用 法 。 


>>> arange( 10, 30, 5 ) 
array((li0s 15; 207 25],) 
>>> arange( 0, 2, 0.3 ) 
arrayll OQ% 1: OQ Doer Oud Zr .5 1.8)) 


>>> linspace( 0, 2, 9 ) # 从 0 到 2，9 个 数字 
ED 
>>> x = linspace( 0, 2*pi, 100 ) # 从 0 到 2*pi 共 100 个 数字 


(4) 输出 数组 。 可 使 用 print 输出 Numpy 的 数组 对 象 。 下 面 的 代码 是 一 维 数组 的 创建 和 


输出 。 


>>> a = arange (6) # 一 维 数 组 
>>> print a 
1L234 本 


下 面 的 代码 是 二 维 数组 的 创建 和 输出 ， 从 输出 结果 可 清晰 地 看 出 b 的 大 小 为 (4,3)。 


>>> b = arange (12) .reshape (4,3) # 二 维 数 组 
>>> print b 

[ff 工 2 

[3 和 本 5] 

[6 7 8] 

[ 9 .10 41] 


(5 ) 数组 索引 。Numpy 数组 的 每 个 元 素 、 每 行 元 素 、 每 列 元 素 都 可 以 用 索引 访问 ， 不 


过 要 注意 索引 是 从 0 开始 的 。 比 如 ， 某 数组 大 小 为 (2,3)， 则 第 2 行 第 1 列 元 素 的 索引 是 [1,0]。 
下 面 以 三 维 数组 为 例 ， 演 示 数 组 的 创建 、 输 出 及 索引 。 
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首先 创建 三 维 数组 ce， 并 输出 其 元 素 。 


>>> c = arange (24) .reshape (2,3,4) # 三 维 数 组 
>>> print c 
i[t 9 二 这 _ 基 

fa4 5 看 “对 

[8 910 11]] 


[2 13 14 35) 
[6 17 18 19] 
[20 21 22 23]]] 


三 维 数组 c 可 表示 为 如 图 4-1 所 示 的 形式 。 





4-1 三 维 数组 c 


图 4-1 中 单元 格 上 方 标注 了 [0,0,:]、[0,1,:] 等 索引 ， 索 引 中 的 “:” 表 示 该 维度 内 的 所 有 
元 素 。 对 照 图 4-1， 查 找 索引 [1,2,:] 处 (第 2 行 第 3 列 ) 的 所 有 元 素 和 索引 [0,1,2] 处 的 元 素 ， 
可 得 出 元 素 为 [20,21,22,23] 和 6。 下 面 编写 代码 验证 一 下 。 

>>> print oti 

120, 21° 22. 23] 

>>> print c[0,1,2] 

6 


(6 ) 数组 运算 。 数 组 的 加 减 乘除 以 及 乘 方 运算 方式 为 ， 相 应 位 置 的 元 素 分 别 进行 计算 。 
比如 : 

数组 加 法 : array( [20,31,42,53] )=array( [20,30,40,50] )+array( [0,1,2,3] ) 

数组 减法 : array( [20, 29, 38, 47] )=array( [20,30,40,50] )-array( [0,1,2,3] ) 

数组 乘法 : array([[2, 0],[0, 4]])=array( [[1,1],[0,1]] )*array( [[2,0],[3,4]] ) 

数组 乘 方 : array([0, 1, 2, 3]) 的 二 次 方 =array([0, 1, 4, 9]) 

数组 除法 : array([ 20. , 15. , 13.33333333, 12.5])=array( [20,30,40,50] )/array([1, 2, 3, 4]) 

下 面 的 代码 演示 了 数组 的 加 、 减 、 乘 、 除 及 更 多 运算 (关键 代码 处 注释 了 运算 类 型 )。 


>>> a = array( [20,30,40,50] ) 

>>> aa = arange(1，5) 

>>> a/aa### 除 法 

array ([ 20. ee +: 143.33333333, 12.5 ]) 
>>> 

>>> b = arange( 4 ) 

>>> b 

array([0, 1, 2, 3]) 

>>> c = a-b### 减 法 

>>> c 
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array([20，29，38，47]) 
>>> b**2### 乘 方 
array([0, 1, 4, 9]) 
>>> 10*sin (aa)#### 数 乘 ，sin 函 数 为 正弦 函数 
array([ 9.12945251, -9.88031624, 7.4511316 ，-2.62374854] ) 
>>> a<35### 指 定 条 件 判 断后 生成 相应 的 布尔 数组 
array ( [True，True False, False], dtype=bool) 
>>> A = array( [[1,1],[0,1]] ) 
>>> B = array( [[2,0],[3,4]] ) 
>>> A*B### 乘 法 
array([[2，0]， 
[0, 4]]) 
>>> #dot 表 示 乘 积 。 对 一 维 数组 计算 的 是 点 积 ， 对 二 维 数组 计算 的 是 矩阵 乘积 
.. .# 此 处 表示 矩阵 乘积 
. dot (A,B) 
array([[S5, 4], 
[3; 4]]) 

>>> a = ones((2,3)，qtype=int)###ones 函 数 创 建 全 1 数组 ， 指 定 元 素 类 型 为 int 
>>> b = random.random( (2,3) ) ### 创 建 随机 数组 ， 指 定 大 小 为 (2, 3) 
>>> a *= 3### 数 乘 

a 

be 


>>> 

EEC i3 3 371, 
[3 3; 311) 

>>> b += a### 加 法 


>>» bb 

array(ll 3.69092703, 3.8324276 1 3:0114541 1], 
[ 3.18679111, 3.3039349 ， 3.37600289]]) 

>>> a += b 拓 ## 加 法 

>>> a 

array{([[6, €, 6], 
[6, 6, 6]]) 

>>> a = random.random( (2,3)) 

S35 a 

array([[ 0.6903007 ， 0.39168346, 0.16524769]， 
[ 0.48819875, 0.77188505, 0.94792155]]) 

>>> a.sum () ### 求 和 

3.4552372100521485 

>>> a.min () ### 求 最 小 值 

0.16524768654743593 

>>> a.max () ### 求 最 大 值 

0.9479215542670073 


(7) 数组 的 拷贝 。 数 组 的 拷贝 分 为 浅 拷 贝 和 深 拷贝 两 种 ， 浅 拷贝 通过 数组 变量 的 赋值 完 
成 ， 深 拷贝 使 用 数组 对 象 的 copy 方法 。 

浅 拷 贝 只 拷贝 数组 的 引用 ， 如 果 对 拷贝 进行 修改 ， 源 数组 也 将 修改 。 下 面 的 代码 演示 了 
浅 拷贝 的 方法 。 


>>> a=ones ( (2, 3)) 
>55 ‘a 
ALESyIE[ Ts Ez als 
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LL Eas os Paddy 

>>> b=a###b 为 a 的 浅 拷 贝 

>>> b[1,2]=2 

>>> a 

arvaytl[l Tp Bos als 
[ Tre ler el)} 

>>> b 

成 区 KRC Tss iy dsls 
[ 1 1 241]) 


深 拷贝 会 复制 一 份 和 源 数组 一 样 的 数组 ， 新 数组 与 源 数组 不 会 存放 在 同一 内 存 位 置 中 ， 
因此 ， 对 新 数组 的 修改 不 会 影响 源 数组 。 下 面 的 代码 演示 了 b 使 用 copy 方法 从 源 数组 a 复 
制 一 份 拷贝 的 情况 。 可 以 看 到 ， 修 改 b 后 ，a 仍然 不 变 。 


>>> a=ones ( (2, 3)) 

>>> d = a.copy() 

>>> b[1,2]=2 

>>> a 

EEC [人 Lr day Roly 
Ef Ly op MIy 

>>> Pb 

array([[ Yr da 1， 
[ 1., 1., 2.]]) 


2， 和 矩阵 

(1) 创建 矩阵 。Numpy 的 矩阵 对 象 与 数组 对 象 相似 ， 主 要 不 同 之 处 在 于 ， 和 矩阵 对 象 的 
计算 遵循 矩阵 数学 运算 规律 。 和 矩阵 使 用 matrix 函数 创建 ， 以 (2,2) 大 小 的 矩阵 (2 行 2 列 ) 
为 例 ， 可 用 以 下 两 种 方式 定义 参数 : 

' 第 1 行 第 1 列 元 素 第 1 行 第 2 列 元 素 ;第 2 行 第 1 列 元 素 第 2 行 第 2 列 元 素 ' 

[[ 第 1 行 第 1 列 元 素 ,第 1 行 第 2 列 元 素 ],[ 第 2 行 第 1 列 元 素 , 第 2 行 第 2 列 元 素 ]] 

下 面 的 代码 演示 了 和 矩阵 的 创建 及 类 型 查询 方法 。 


>>> A = matrix('1.0 2.0; 3.0 4.0'5) 并 ## 和 矩阵 及 


>>> A 

有 二 

让 有 

>>> B = matrix([[1.0,2.0],[3.0,4.0]])### 和 矩阵 B 
>>> B 

二 去 七 天 半天 所 [开间 JJ， 


E 
>>> type (A) # 查询 A 变量 的 类 型 
<class ‘'numpy.matrixlib.defmatrix.matrix'> 
(2 ) 矩阵 运算 。 和 矩阵 的 常用 数学 运算 有 转 置 、 乘 法 、 求 逆 等 。 下 面 的 代码 演示 了 和 矩阵 的 
基本 运算 。 
>>> A.T # 转 置 


kl La Ss 
[ ze 4a]j 
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S55. 二 ERICLS50 7207】 
>>> 了 = X.T # 转 置 
>>> Y 
LCS:.] 
[7.]] 
>>> Print A*Y # 和 矩阵 乘法 


BE 
[43.]] 
>>> print A.I # 逆 矩阵 
[[-2. ww 
[ 5 =055]] 
>>> solve (A，Y) # 解 线性 方程 组 
matrix([[-3.], 


[ 4.]]) 


人 注意 


关于 Numpy 及 其 函数 的 更 多 信息 可 查阅 Numpy 官网 : 
http://wiki.scipy.org/Numpy_Example List 


4.1.3 pylab、matplotlib 绘图 


为 了 验证 算法 的 有 效 性 ， 机 器 学 习 通 常 需要 进行 绘图 ，pylab、matplotlib 等 模块 是 专业 
的 Python 绘图 模块 。 


1. sin 函数 绘制 

在 二 维 坐标 系 中 绘图 的 基本 方式 是 使 用 plot 方 法， 其 参数 分 别 为 x 轴 数 值 、y 轴 数 值 ， 
这 里 的 数值 可 以 是 单个 数 也 可 以 是 Numpy 的 一 维 数组 对 象 。 下 面 的 代码 演示 了 sin 函数 图 
像 的 绘制 。 

import numpy as np 

import matplotlib.pyplot as plt 

x = np.arange (0, 5, 0.1); 

Y = np.sin(x) 

plt,plot(x, YY) 


如 图 4-2 所 示 为 sin 函数 图 像 效 果 图 ， 从 效果 图 上 观察 ， 曲 线 清晰 ， 坐 标 系 的 标尺 根据 
绘制 参数 已 进行 自动 调整 。 


2. cos 函数 绘制 
下 面 的 代码 使 用 plot 方法 绘制 cos 函数 图 像 。 


import numpy as np 

import matplotlib.pyplot as plt 
x = np.arange (0, 5, 0.1);，; 

Y = np.cos (x) 

plt.plot (x, y) 

plt.show() 


绘图 效果 如 图 4-3 所 示 。 
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VO ee WR Dt a ed 


图 4-3 ”cos 函数 图 像 效 果 图 
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进一步 扩充 图 4-3 所 示 cos 函数 绘制 范围 ， 将 自 变量 x 的 范围 扩大 到 [-8,8]， 三 角 函 数 
cos 图 像 的 周期 性 一 目 了 然 ， 如 图 4-4 所 示 。 下 面 是 绘制 代码 。 


import numpy as np 

import matplotlib.pyplot as plt 
x = np.arange(-8, 8, 0.1); 

Y= np.cos (X) 

plt.plot (x, y) 

plt.show() 





4-4 cos 函数 周期 图 像 


4.1.4 ”图 像 基础 
1. 数字 图 像 


数字 图 像 是 指 将 二 维 图 像 用 有 限 数字 的 数 
值 像素 表示 ， 像素 表 面 上 看 起 来 不 像 分 离 的 
点 ， 但 实质 它们 就 是 点 。 例 如 ， 图 4-5 所 示 的 
树叶 写真 就 是 由 很 多 像素 点 组 成 的 ， 但 用 肉眼 
无 法 观察 到 像素 点 的 存在 。 

我 们 使 用 一 款 取 像素 的 软件 对 图 4-5 进行 
分 析 ， 如 图 4-6 所 示 。 可 以 看 到 ， 线 的 十 字 交 
又 处 就 是 一 个 像素 点 ， 软 件 显示 ， 在 图 像 的 
[459,530] 处 像素 点 的 值 为 (64,77,67 )。 中 间 
是 放大 的 这 部 分 图 片区 域 ， 放 大 后 ， 图 像 仿佛 图 4-5 树叶 写真 
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由 一 个 个 小 的 颗粒 组 成 ， 将 这 些 颗 粒 进一步 放大 ， 就 能 看 到 颗粒 是 由 若干 个 像素 点 组 成 ， 如 
果 将 图 像 完 全 放大 ， 就 能 看 清 每 个 像素 点 的 存在 了 。 

(64, 77, 67 ) 就 是 图 4-6 中 某 点 的 像素 值 。 
每 个 像素 点 可 有 各 上 自 的 颜色 值 ， 可 采用 三 原 
色 显 示 ， 因 而 又 分 成 红 、 绿 、 蓝 三 个 子 像素 
(RGB 色 域 )， 或 者 青 、 品 红 、 黄 和 黑 ( CMYK 
色 域 )， 通常 计 算 机 的 图 像 采 用 的 像素 标准 为 
红 、 绿 、 蓝 三 个 子 色 。 图 4-6 所 示 十 字 交 又 处 ” 吃 
的 像素 值 含 义 为 : 红色 值 为 64， 绿 色 值 为 77， 图 4-6 树叶 放大 的 颗粒 效果 〈 附 彩 图 ) 
蓝 色 值 为 67。 

分 辩 率 是 度量 图 像 内 数据 量 多 少 的 一 个 参数 ， 通 常 表示 成 每 英寸 像素 数 和 每 英寸 点 数 。 
分 辩 率 越 高 ， 图 像 包 含 的 数据 越 多 ， 就 越 能 表现 更 丰富 的 细节 ， 图 形 文件 就 越 大 。 从 图 4-7 
能 较 直观 地 看 出 这 个 效果 ， 随 着 分 辨 率 的 增加 ， 字 母 R 越 来 越 清晰 。 





10x10 20x20 50x50 100x100 


图 4-7 R 字母 在 不 同 分 辨 率 下 的 效果 


2. OpenCV 的 Python 绑 定 库 实例 

假设 图 像 的 分 辨 率 为 800 x 600， 则 每 一 条 水 平 线 上 包含 有 800 个 像素 点 ， 共 有 600 条 
线 ， 在 计算 机 中 可 以 使 用 一 个 800 列 600 行 的 数组 来 表示 该 图 像 。 数 组 的 每 个 元 素 就 是 一 个 
像素 点 ， 比 如 ， 第 100 行 第 200 列 的 元 素 就 是 图 像 的 第 100 条 水 平 线 第 200 个 像素 点 的 像素 
值 。 那 么 如 何 提取 图 像 中 的 像素 值 呢 ? 

可 以 使 用 OpenCYV 的 Python 绑 定 库 完 成 这 些 操作 。OpenCyV 作为 跨 平台 的 计算 机 视觉 
库 , 拥有 包括 500 多 个 跨 平台 图 像 处 理 的 中 、 高 层 API， 对 图 像 像 素 的 读 写 自然 不 在 话 下 。 

使 用 OpenCYV 函数 库 之 前 ， 需 要 先导 入 其 Python 绑 定 库 。 


import cv2 

OpenCV 函数 对 像素 点 的 读 写 操作 可 理解 为 对 图 像 矩 阵 的 存 取 ，OpenCV 图 像 矩 阵 中 
每 个 像素 点 的 值 由 蓝 色 值 、 绿 色 值 、 红 色 值 3 个 部 分 组 成 ， 三 色 值 组 合成 一 个 一 维 数组 。 
假设 A 图 像 的 高 度 ( 行 数 ) 为 H， 宽 度 ( 列 数 ) 为 W， 则 A 图像 对 应 的 图 像 矩 阵 大 小 为 
Hx W x3，A 图 像 算 阵 可 表示 吾 行 W 列 ( 共 HxW 个 ) 像素 点 的 组 合 。 

如 果 想 读 取 A 图 像 150 行 20 列 处 的 像素 值 ( 设 A 的 图 像 矩 阵 变量 为 img_a )， 可 进行 
如 下 访问 : 

img a[150,20,:] 


下 面 的 代码 中 第 1 行 是 150 行 20 列 处 像素 的 蓝 色 值 ， 第 2 行 是 150 行 20 列 处 像素 的 绿 
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色 值 ,第 3 行 是 150 行 20 列 处 像素 的 红色 值 。 
blue=img a[l150,20,0] 
green=img a[150,20,1] 
red=img a[150,20,2] 


下 面 以 几 个 经 典 实 例 演示 OpenCYV 的 Python 绑 定 库 的 使 用 方法 。 

(1) 显示 图 像 。 程 序 原理 是 ， 首 先 使 用 imread( 文 件 名 ) 读 取 图 像 文件 ， 生 成 图 
像 矩 阵 ， 然 后 调用 imshow 方 法 显示 图 像 ， 调 用 waitKey0) 方 法 等 竺 按键， 最 后 调用 
destroyAllWindows() 销毁 窗口 ， 这 样 可 方便 查看 图 像 。 


#!/usr/bin/env Python 
#4-1 .py 

import cv2 

fn="testl1 .jpg" 


if name == "'_ main _"; 
print ‘http://blog.csdn.net/myhaspl' 
print 'myhaspl@qq.com' 
print 
print 'loading %s ...' % fn 
img = cv2.imread (fn) 
cv2.imshow('preview', img) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


效果 如 图 4-8 所 示 。 


丙 preview 





图 4-8 显示 图 像 


(2 ) 随机 生成 像素 。 程 序 的 原理 是 ， 首 先 产 生 空 图 像 和 矩阵 ， 然 后 确定 抢 阵 的 2000 个 随 
机 位 置 ， 最 后 将 随机 位 置 处 的 像素 值 设 置 为 随机 数 数组 。 下 面 是 源 代码 。 


#!/usr/bin/env python 
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#-—*— coding: utf-8 一 * 一 
#code:myhaspl@qq.com 

# 随 机 生成 像素 点 

#4-2.py 

# 导 入 numpy 和 opencv 函 数 库 
import numpy as np 
import cv2 


if name == ' _ main _': 


szl = 200 

# 列 数 

sz2 = 300 

print u'" 产 生 空 图 像 矩 阵 ($d*sd) ...' 入 (szl, sz2) 

# 产 生 空 图 像 矩 阵 , 大 小 为 sz1*sz2 ( 行 数 * 列 数 ) ， 本 程序 为 200*300 

img =np.zeros((szl, sz2,3), np.uint8) 

posl=np.random.randint (200, size=(2000，1) ) ### 行 位 置 随机 数组 

pos2=np.random.randint (300, size=(2000，1) )### 列 位 置 随机 数组 

# 在 随机 位 置 处 设置 像素 点 值 

for i in range (2000): 
img[posl[il],pos2[i],[0]]=np.random.randint (0,255) 
img[posl[i],pos2[i], [1]]=np.random.randint (0,255) 
img[posl[i],pos2[i], [2]]=np.random.randint (0,255) 


# 显 示 图 像 
cv2.imshow('preview', img) 
# 等 待 按键 

Cv2 .waitKey () 

# 销 毁 窗 口 
cv2.destroyAllWindows () 


随机 产生 像素 点 后 ， 创 建新 窗口 并 显示 含 彩色 雪花 点 的 图 像 ， 运 行 以 上 代码 : 
产生 空 图 像 矩 阵 (200*300) 


效果 如 图 4-9 所 示 。 

(3 ) 获取 图 像 大 小 。 程 序 通过 图 像 矩 阵 的 shape 属性 获取 图 像 大 小 ，shape 返回 tuple 元 
组 ， 元 组 的 第 1 个 元 素 为 高 度 ， 第 2 个 元 素 为 宽度 ， 
第 3 个 元 素 为 3 (像素 值 由 三 原色 组 成 )。 


#!/usr/bin/env Python 

Godings Ttf-8 一 和 一 

#4-3.py 

import cv2 

import numpy as np 

fn="test2.jpg" 

if name == "' main ': 
print 'loading %s ...* % fn 
img = cv2.imread (fn) 


# 获 取 图 像 矩 阵 大 小 . 
Spimg:shape 图 4-9 随机 产生 若干 像素 点 ( 附 彩 图 ) 
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print sp 

# 高 度 ， 即 行 数 

szl=sp[0] 

# 宽 度 ， 即 列 数 

sz2=sp[1] 

print 'width:%d\nheight:%d'%(sz2,sz1) 


运行 效果 如 下 ， 程 序 返回 图 像 的 高 为 435， 宽 为 656。 


loading testl.jpg .。.. 
(435, 656, 3) 
width:656 

height:435 


(4) 调节 图 像 亮度 。 调 节 的 原理 是 ， 将 像素 值 变 小 ， 则 将 亮度 调 小 ， 全 部 色彩 变 暗 ; 将 
像素 值 变 大 ， 则 将 亮度 调 大 ， 全 部 色彩 变 亮 。 


#!/usr/bin/env python 
#-*- COding: utf-8 —*~— 
#4-4.py 
import cv2 
import numpy as np 
fn="testl1 .jpg" 
if name, == ' main ': 
print "loading %s, som" $$ fn 
print u' 正 在 处 理 中 '， 
img = cv2.imread (fn) 
w=img .shape[1] 
h=img .shape[0] 
ii=0 
# 将 全 部 色彩 变 暗 
for xi in xrange (0,w): 
for xj :in xrange (0,h): 
# 将 像素 值 整体 减少 ， 设 为 原 像素 值 的 20s 
img [xj,xiy0]= int (img[xj,xi,0]*0.2) 
img [xj,xi,1]= int (img[xj,xi,1]*0.2) 
img [xj,xi,2]= int (img [xj,xi,2]*0.2) 
# 显 示 进 度 条 
if xi%10==0 :print '.', 
cv2 .namedWindow('img') 
‘cv2.imshow('img', img) 
cv2 .waitKey () 
cv2.destroyAllWindows () 
print’" 
print u' 正 在 处 理 中 ' ， 
# 将 全 部 色彩 变 亮 
for Xi in xrange (0,w): 
for xj in xrange (0,h) : 
# 将 像素 值 整 体 增加 ， 设 为 原 像素 值 的 1020g 
img [xj,xi,0]= int(img[xj,xi,0]*10.2) 
img [xj,xi,1]= int (img[xj,xi,1]*10.2) 
img [xj ,xi,2]= int (imglxjrxi,2]*10..2) 
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if xi%10==0 :print '.', 
# 显 示 图 像 
cv2.namedWindow('img') 
cv2.imshow('img', img) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


上 面 程序 将 图 像 每 个 像素 值 减少 ， 实 现 图 像 亮 度 变 暗 的 效果 ， 如 图 4-10 所 示 。 然 后 每 
个 像素 值 增 大 ， 实 现 图 像 亮 度 变 亮 的 效果 。 
如 图 4-11 所 示 为 图 像 变 亮 效果 ， 因 为 像素 值 过 大 ， 已 经 出 现 失真 现象 。 





图 4-10 图 像 变 暗 ( 附 彩 图 ) 图 4-11 图 像 变 亮 ( 附 彩 图 ) 


(5 ) 图 像 日 落 效果 。 日 落 效果 的 生成 原理 很 简单 ， 将 蓝 色 值 和 绿色 值 设 为 原来 的 70%， 
红色 值 不 变 ， 设 图 像 矩 阵 为 img。 代 码 如 下 : 
# 生 成 日 落 效 果 


for xi in xrange (0,w): 
for xj in xrange (0,h): 
img [xj,xi,0]= int (img [xj,xi,0]*0.7)### 蓝 色 值 为 原来 的 70% 
img [xj,xi,1]= int (img[xj,xi,1]*0 .7) ### 绿 色 值 为 原来 的 70% 


完整 代码 如 下 : 


#!/usr/bin/env python 

#=*~ oding: Htf-8 ~*— 
#4-5.py 

import cv2 

import numpy as np 
fn="testl .jpg" 

于 在 name == ' main ': 





PrinE 10ading 和 So % En 
print u' 正 在 处 理 中 '， 

img = cv2.imread (fn) 

w=img .shape[1] 

h=img .shape [0] 

ii=0 


# 生 成 日 落 效 果 
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片 的 原理 是 ， 将 像素 的 三 色 值 设 为 
(255- 原 值 )。 设 图 像 矩 阵 为 img， 代 
码 如 下 : 
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for xi in xrange (0,w): 
for xj in xrange (0,h): 
img [xj,xi,0]= int (img [xj,xi,0]*0.7)### 蓝 色 值 为 原来 的 70% 
img [xj,xi,1]= int (img [xj,xi,1]*0.7) 间 ## 绿 色 值 为 原来 的 70% 
# 显 示 进 度 条 
if xi%10==0 :print '.', 
# 显 示 图 像 
cv2.namedWindow('img') 
cv2.imshow('img', img) 
cv2 .waitKey () 
Cv2.destroyAllWindows () 


运行 效果 如 图 4-12 所 示 。 
(6) 负片 与 水 印 效 果 。 生 成 负 


by dg; YT = CV2 Split (img) 
b=255-b 
g=255-g 
r=255-r 


水 印 效果 的 原理 是 ， 调 用 putText 





图 4-12 图像 日 落 效 果 ( 附 彩 图 ) 


函数 ， 以 图 像 矩 阵 为 第 1 个 参数 ， 输 
出 内 容 为 第 2 个 参数 ， 在 图 像 上 直接 输出 水 印 文字 。 代 码 如 下 : 


0)， 


# 加 上 水 印 
cv2.putText (img, "machine learning", (20,20),cv2.FONT HERSHEY PLAIN, 2.0, (0, 0, 
thickness = 2) 
cv2 .putText (img, "Support Vector Machines (SVMs)is an algorithm 
of machine learning.", (20,100),cv2.FONT HERSHEY PLAIN, 1.0, (0, 0, 0), thickness = 2) 


负片 与 水 印 效 果 的 完整 代码 如 下 : 


#!/usr/bin/env python 
#-*= coding: utf-8 一 * 一 
#4-6.py 
import cv2 
import numpy as np 
fn="testl1.jpg" 
41£ name == ' main ': 
Brint *loading %S .vu! 客 .2 
print u' 正 在 处 理 中 '， 
# 读 取 图 像 文件 
img = cv2.imread (fn) 
# 获 取 图 像 大 小 
w=img .shapel[1] 
h=img.shape[0] 





ii=0 
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# 生 成 负片 
by, gr r = Cv2 split (img} 
b=255-b 
g=255-g 
r=255-r 
# 直 接 通过 索引 改变 色彩 分 量 
img[:,:,0]=b 
img[:,:,1]=g 
Lmgl: ys: 7]=r 
# 加 上 水 印 
cv2.putText (img, "machine learning", (20,20),cv2.FONT HERSHEY PLAIN, 2.0, (0， 
0, 0), thickness = 2) 
cv2.putText (img, "Support Vector Machines (SVMs)is an algorithm 
of machine learning.", (20,100),cv2.FONT HERSHEY PLAIN, 1.0, (0, 0, 0), thickness 
= 2) 
cv2.namedWindow('img') 
cv2.imshow('img', img) 
CV2 .waitKey () 
CV2 .destroyRl1Windows () 


运行 效果 如 图 4-13 所 示 。 

(7) 图 像 平 铺 。 图 像 平 铺 的 原 
理 是 ， 首 先 计 算 平 铺 后 的 图 像 大 小 ， 
生成 同样 大 小 的 空白 图 像 ， 然 后 在 
. 空白 图 像 中 逐个 像素 复制 图 像 ， 直 
接 将 空白 图 像 像 素 值 设置 为 平 铺 后 
该 位 置 对 应 的 像素 值 ， 复 制 的 顺序 
是 逐 行 复 制 ， 横 向 平 铺 5 个 图 像 ， 
纵向 平 铺 2 个 图 像 ， 最 后 显示 图 像 
效果 。 下 面 是 完整 代码 : 


#!/usr/bin/env Python 
#=*= coding: ‘utf£=8 =*= 
#code:myhaspl@qq.com 
#4-7.py 

import cv2 





import numpy as np 
fn="test .png" 
下 name == ' main ': 





print 'loading %s ...' % fn 
print ' 正 在 处 理 中 '， 

img = cv2.imread (fn) 

w=img .shape[1] 

h=img .shape[0] 

# 横 向 平 铺 5 个 图 像 

SzZzl=w*5 

# 纵 向 平 铺 2 个 图 像 

sz0=h*2 
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# 创 建 空白 图 像 ， 然 后 将 图 片 排 列 
myimgl=np.zeros((sz0,szl,3), np.uint8) 
# 逐 个 像素 复制 
img x=0 
img_y=0 
for now y in xrange (0,sz0): 
# 增 加 行 数 
for now x in xrange(0,sz1): 
# 复 制 对 应 位 置 的 图 像 像 素 点 
myimgl [now y,now x,0]=img[img y,img x,0] 
myimgl [now ynow x,1]=img[img y,img x,1] 
myimgl [now y,now x,2]=img[img y,img x,2] 
# 增 加 列 数 
img x+=1 
if img x>=w: 
img x=0 
img_ y+=1 
if img y>=h: 
img_y=0 
BEint VY, 
cv2.namedWindow('imgl’') 
cv2.imshow('imgl', myimgl) 


cv2 .waitKey () 
Cv2.destroyAllWindows () 





图 4-14 图像 平 铺 


( 8 ) 旋转 并 平 铺 图 像 。 与 刚才 的 例子 相似 ,但 多 了 一 步 旋转 操作 。 旋 转 的 原理 是 将 图 像 
矩阵 转换 为 它 的 转 置 矩阵 ， 旋 转 算法 是 将 新 图 像 矩 阵 [h,w] 处 的 像素 设 为 原 图 像 矩阵 [wh] 
处 的 值 (这 里 的 值 是 一 维 矩 阵 )， 相 当 于 和 矩阵 转 置 的 算法 。 设 myimg1 为 图 像 矩 阵 ， 编 写 代 
码 如 下 : 


for now y jin xrange(0,sz0): 
for now x in xrange(0,sz1): 
myimgl [now x,now y, :]=img[img y,img x,:] 
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旋转 并 平 铺 图 像 完 整 代码 如 下 : 


#!/usr/bin/env python 
#4-*= coding: utEE=8 = 
#code:myhaspl@qq.com 
#4-8.py 
import cv2 
import numpy as np 
fn="test .png" 
if name == "' main ': 
print 'loading %s ...' % fn 
print 'working', 
img = cv2.imread (fn) 
w=img.shapel[1] 
h=img.shape[0] 
#w 为 宽度 ，h 为 高 度 
Szl=w*2 
sz0=h*3 
# 创 建 空白 图 像 ， 然 后 将 图 片 排列 
myimgl=np.zeros((szl,sz0,3), np.uint8) 
# 翻 转 并 生成 图 像 
# 逐 个 复制 像素 
img x=0 
img_y=0 
for now y in xrange(0,sz0): 
for now x in xrange(0,sz1): 
# 旋 转 图 像 
myimgl [now x,now_y,:]=img[img y,img x,:] 
img_ x+=1 
# 新 的 一 次 平 铺 


if img x>=w: 





img x=0 

img y+=1 

# 新 的 一 次 平 铺 

if img y>=h: 

img_y=0 

prt 全 
cv2.namedWindow('imgl') 
cv2.imshow('imgl', myimgl) 





cv2 .waitKey () 





cv2.destroyAllWindows () 


运行 效果 如 图 4-15 所 示 。 图 4-15 ”图像 旋转 和 平 铺 


4.1.5 图 像 融 合 与 图 像 镜 像 
本 节 的 两 个 例子 是 对 上 节 内 容 精华 的 总 结 ， 较 好 地 综合 了 OpenCyV 的 基础 功能 。 
1. 图 像 融合 
图 像 融合 的 原理 是 ， 让 新 图 像 的 每 个 像素 成 为 两 个 源 图 像 中 对 应 像素 的 平均 值 之 和 ， 
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即 : 将 两 个 图 像 的 像素 值 取 50% 后 相 加 。 为 简化 计算 ， 直 接 选 取 其 中 一 个 源 图 像 作为 新 图 
像 ， 设 新 图 像 矩 阵 为 myimg2， 编 写 代 码 如 下 : 
# 每 个 像素 为 2 个 像素 的 平均 值 


for y in xrange (0,sz0): 
for x in xrange (0,sz1): 
myimg2[y,x, :]=myimgl[y,x,:]*0.5+myimg2[y,x,:]*0.5 


完整 代码 如 下 (关键 之 处 有 注释 ) : 


#!/usr/bin/env python 

#-*= coding: utf-8 -*- 

#code:myhaspl@qq.com 

#4-9.py 

import cv2 

import numpy as np 

fni="hel .jpg" 

fn2="he2 .jpg" 

if name ==" main ': 
print 'working', 
myimgl = cv2.imread (fnl) 
myimg2 = cv2.imread (fn2) 
# 取 得 图 像 大 小 
w=myimg1.shape[1] 
h=myimgl .shape[0] 
szl=w 
sz0=h 


# 每 个 像素 为 2 个 像素 的 平均 值 之 和 ， 进 行 图 像 融合 
for y in xrange(0,sz0): 
for x in xrange(0,sz1): 
myimg2[y,x,:]=myimgl [y,x,:]*0.5+myimg2[y, 
Xr 3]*0.5 
BED "i 


cv2.namedWindow ('img2"') 
cv2.imshow('img2', myimg2) 
cv2 .waitKey () 
cv2.destroyAllWindows () 





效果 如 图 4-16 所 示 。 图 4-16 图像 融 合 
2. 图 像 镜像 


图 像 纵向 镜像 的 原理 是 ， 首 先 获 取 图 像 的 宽度 ， 将 宽度 的 50% 取 整 后 作为 图 像 的 纵向 
中 线 ; 然后 以 中 线 为 轴 ， 将 图 像 左 边 反 向 复制 到 图 像 右 边 ， 使 图 像 最 右边 一 列 的 像素 点 等 于 
图 像 最 左边 一 列 的 像素 点 。 比 如 ， 图 像 大 小 为 200 x300 (高 200, 宽 300), 第 180 行 170 
列 (索引 为 [180,170,:] ) 的 像素 点 值 为 第 180 行 第 130 列 的 像素 点 值 (300-170=130 )。 

横向 镜像 与 纵向 镜像 类 似 ， 不 同 之 处 在 于 将 高 度 的 50% 取 整 后 作为 图 像 的 横向 中 线 ， 
复制 时 是 最 下 边 一 行 的 像素 点 值 等 于 最 上 边 一 行 的 像素 点 值 。 
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纵向 镜像 可 按 如 下 形式 编写 代码 : 
# 纵 向 生成 镜像 


mirror w=w/2 
for j in xrange (0,h): 
for i in xrange (0,mirror w): 
了 ng 了 ri, :1=img[lij, w=1=1,:] 


下 面 的 代码 演示 了 图 像 的 纵向 镜像 。 


#!/usr/bin/env python 
$=*= Codingy WE=8 =*e 
#code:myhaspl@gq.com 
#4-10.py 

import cv2 

import numpy as np 


fn="testl1 .jpg" 
if name == " main "7: 
print 'lJoading SYS wio' 省 £n 
print ' 正 在 处 理 中 '， 
img = cv2.imread (fn) 
w=img .shape[1] 
h=img. shape[0] 
ii=0 
# 纵 向 生成 镜像 
mirror w=w/2 
for j in xrange (0,h): 
for i in xrange (0, 
mirror Ww): 
img[j,i,:]=img[j,w-i-l,:] 
Brint Ti 
# 显 示 图 像 
cv2.namedWindow('img'"') 
cv2.imshow('img', img) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


运行 效果 如 图 4-17 所 示 。 


4.1.6 图 像 灰 度 化 与 图 像 加 噪 
1. 图 像 灰 度 化 
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图 像 灰 度 化 的 原理 是 ， 彩 色 图 像 中 的 每 个 像素 的 颜色 由 R、G、B 三 个 分 量 决定 ， 而 每 
个 分 量 的 取 值 范围 为 0~255。 而 灰 度 图 像 是 R、G、B 三 个 分 量 相同 的 一 种 特殊 的 彩色 图 像 ， 


其 算法 有 以 下 两 种 : 


(1 ) 求 出 每 个 像素 点 的 R、G、B 三 个 分 量 的 平均 值 ， 然 后 将 这 个 平均 值 赋予 给 这 个 像 


素 的 三 个 分 量 。 


(2 ) 根据 RGB 和 YUYV 颜色 空间 的 变化 关系 ， 建 立 亮 度 Y 与 R、G、B 三 个 颜色 分 量 的 
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对 应 关系 : Y=0.3R+0.59G+0.11B， 以 这 个 亮度 值 表达 图 像 的 灰 度 值 。 
OpenCV 有 相关 的 函数 cvtColor， 用 它 可 直接 完成 灰 度 化 操作 。 设 img 为 源 图 像 矩阵 ， 
myimg1l 为 灰 度 化 后 的 目标 图 像 矩 阵 ， 编 写 代 码 如 下 : 
# 复 制 并 转换 为 灰 度 化 图 像 


myimgl=cv2.cvtColor (img, cv2.COLOR BGR2GRAY) 


下 面 的 代码 演示 了 图 像 的 复制 与 图 像 的 灰 度 化 操作 。 


#!/usr/bin/env python 
#-*— coding: utf-8 -*-— 
#4-11 .py 

import cv2 

import numpy as np 


fn="test2.jpg" 
bh name == ' main ': 





print, Loading SS ss" $$ En 

img = cv2.imread (fn) 

sp=img .shape 

print sp 

# 获 取 图 像 大 小 

#height 

szl=sp[0] 

#width 

sz2=sp[1] 

# 显 示 图 像 大 小 

print 'width:%d\nheight:%d'®%(sz2,sz1) 
# 创 建 一 个 窗口 并 显示 图 像 
cv2.namedWindow('img') 
cv2.imshow('img', img) 

# 复 制图 像 矩 阵 ， 生 成 与 源 图 像 一 样 的 图 像 ， 并 显示 
myimg2= img.copy(); 
cv2.namedWindow('myimg2') 
cv2.imshow('myimg2', myimg2) 


# 复 制 并 转换 为 灰 度 化 图 像 ， 并 显示 
myimgl=cv2.cvtColor (img,cv2. 
COLOR_ BGR2GRAY) 
cv2.namedWindow('myimgl') 
cv2.imshow('myimgl', myimg1) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


上 面 的 代码 生成 了 与 源 图 像 一 样 的 新 
图 像 ， 并 生成 了 另 一 个 源 图 像 的 灰 度 化 图 
像 ， 运 行 效果 如 图 4-18 所 示 。 

现在 大 部 分 的 彩色 图 像 都 是 采用 RGB 
颜色 模式 ， 处 理 图 像 的 时 候 ， 要 分 别 对 图 4-18 图 像 灰 度 化 ( 附 彩 图 ) 
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RGB 三 种 分 量 进行 处 理 。 实 际 上 RGB 并 不 能 反映 图 像 的 形态 特征 ， 只 是 从 光学 的 原理 进行 
颜色 的 调配 。 把 图 像 转换 成 8 位 的 灰 度 值 图 像 直接 进行 处 理 ， 
可 以 通过 直方 图 、 灰 度 变化 及 正 交 变换 之 类 数学 运算 对 图 像 
做 进一步 处 理 ， 比 如 说 图 像 识别 等 。 如 果 有 必要 ， 可 将 图 像 
二 值 化 ， 这 样 有 利于 对 图 像 进 一 步 处 理 ， 使 图 像 数 据 量 减 小 ， 
突显 出 感 兴趣 的 目标 的 轮廓 。 如 图 4-19 所 示 为 某 汽车 图 像 二 
值 化 的 效果 。 





2. 图 像 加 品 
给 图 像 人 为 加 噪 的 原理 是 ， 将 图 像 若 干 个 像素 点 的 值 设 图 4-19 图 像 一 值 化 
为 噪声 点 的 值 。 比 如 ， 为 图 像 加 上 很 多 像素 值 为 [25,20,20] 的 像素 点 ， 编 写 代 码 如 下 : 


for k in xrange(0,coutn): 
xi = int(np.random.uniform(0,img.shape[1])) 
xj = int(np.random.uniform(0,img.shape[0])) 
if img.ndim == 2: 
# 灰 度 图 像 
img [xj,xi] = 255 
elif img.ndim == 3: 
# 非 灰 度 图 像 ， 图 像 加 骂 
img [xj,xi,0]= 25 
img [xj,xi,1]= 20 
img [xj,xi,2]= 20 


上 面 的 代码 对 img.ndim 进行 判断 的 用 意 在 于 ， 如 果 图 像 是 灰 度 化 图 像 ， 则 img.ndim 为 2， 
灰 度 化 图 像 的 像素 值 不 存在 红 、 绿 、 蓝 三 色 之 分 ， 仅 有 灰 度 值 ， 因 此 像素 值 仅 需要 一 个 ， 将 
对 应 噪声 点 位 置 的 值 设 为 255 即 可 。 

下 面 的 代码 演示 了 图 像 加 噪 的 算法 ， 为 彩色 图 像 人 为 加 上 100000 个 色彩 随机 的 噪声 点 。 


#!/usr/bin/env Python 
#-—*— Coding: ttf-8 = 一 
#4-12.py 

import cv2 

import numpy as np 

# 和 需要 加 噪 的 图 像 文件 名 
fn="testl1 .jpg" 


if nameé == "' Main *: 
# 加 载 图 像 
print "loading %s ...' $ fn 


img = cv2.imread (fn) 

# 噪 声 点 数量 

coutn=100000 

for k in xrange (0,coutn): 


# 获 取 图 像 噪 声 点 的 随机 位 置 
xi = int(np.random.uniform(0,img.shape[1])) 
xj = int(np.random.uniform(0,img.shape[0])) 
# 图像 加 噪声 点 
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if img.ndim == 2: 
img[xj,xi] = 255 
elif img.ndim == 3: 
img [xj,xi,0]= 25 
img [xj,xi,1]= 20 
img [xj,xi,2]= 20 
cv2 .namedWindow('img') 
cv2.imshow('img', img) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


运行 效果 如 图 4-20 所 示 。 





图 4-20 ”图像 加 噪 


上 述 程序 的 运行 原理 是 将 图 像 数 据 和 矩阵 随机 位 置 的 像素 点 设 为 (25,20,20)， 当 随机 的 像 
素 点 数量 较 大 时 ， 就 在 图 像 上 生成 了 噪声 。 

加 上 噪声 的 图 像 是 为 了 实验 图 像 识 别 的 效果 ， 有 些 机 器 学 习 算法 对 没有 噪声 的 图 像 识别 
的 效果 很 好 ， 但 如 图 4-20 这 种 噪声 较 多 的 情况 效果 就 很 不 理想 了 ， 因 为 在 实际 工程 应 用 中 ， 
很 难保 证 采集 到 的 图 像 清 晰 可 靠 ， 所 以 需要 人 为 给 图 像 加 上 噪声 ， 以 方便 后 期 对 算法 效果 进 
行 验证 。 


4.1.7 ”声音 基础 


1. 声音 原理 
声音 是 由 物体 的 机 械 振动 形成 的 ， 发 生 声音 的 振动 源 叫 作 “ 声 源 ”。 振 动 着 的 鼓 皮 、 琴 
弦 、 扬 声 器 等 都 是 声 源 ， 人 的 声带 也 是 声 源 。 声 音 必 须 通过 媒质 才能 传播 ， 空 气 、 水 、 金 
属 、 木 材 等 是 最 常见 的 媒质 。 声 波 的 频率 是 每 秒 钟 往复 振动 的 次 数 ， 一 来 一 往 为 一 次 ， 又 称 
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一 周 ， 声 波 的 频率 也 就 是 声音 的 频率 ， 频 率 单位 为 赫 效 (Hz )， 每 秒 振动 一 周 为 1Hz。 波 长 ” 
是 声 源 每 振动 一 周 声波 所 传播 的 距离 ， 频 率 越 高 则 波长 越 短 ， 波 长 同 频率 成 反比 。 

“相位 ”可 简称 为 “ 相 ”。 一 般 地 说 ， 相 位 是 用 来 描述 简 谐 振动 的 ， 在 一 个 周波 之 内 ， 任 
何 一 点 的 “ 相 ” 都 不 相同 ， 各 对 应 于 一 个 确定 的 相位 角 值 ;而 在 另 一 个 周波 ， 各 种 相位 将 会 
重复 出 现 。 所 以 在 声波 传播 的 路 径 上 ， 每 隔 一 个 波长 的 距离 ， 其 相位 相同 。 

声音 的 音调 是 由 它 的 基 频 决定 的 ， 基 频 越 高 则 音调 也 越 高 。 如 在 音乐 中 中 央 C 的 基 频 
是 261.6Hz ， 而 A 调 的 基 频 则 是 440Hz。 通 常 将 声音 分 为 以 下 频带 : 20Hz、25Hz、31.5Hz、 
40Hz、50Hz、63Hz、80Hz、100Hz、125Hz、160Hz、200Hz、250Hz、315Hz、400Hz、 
SO0Hz、630Hz、800Hz、1kHz、1.25kHz、1.60kHz、2.0kHz、2.5kHz、3.15kHz、4.0kHz、 
5.0kHz、6.3kHz、8.0kHz、10kHz、12.5kHz、16kHz、20kHz。 一 般 来 说 ， 人 耳 可 感受 的 正 
弦 波 的 范围 是 从 20Hz 的 低频 声音 到 20kHz 的 高 频 声 。 


2. 声音 波形 

声音 波 波 形 属于 正弦 波 ， 拥 有 振幅 和 频率 两 个 特征 ， 振 幅 就 是 音量 ， 频 率 就 是 音调 。 下 
面 调用 Python 的 WAV 声音 处 理 库 以 及 Numpy 科学 计算 库 显示 一 段 声音 的 波形 。 

显示 声音 波形 数据 的 主要 步 又 如 下 : 

(1 ) 打开 WAV 文件 ， 使 用 wave 库 的 open 方法 ， 主 要 参数 为 文件 名 和 存 取 文 件 方式 。 

# 以 读 方式 打开 WAV 文 档 

f = wave.openl(r"back.wav", "rb") 

(2 ) 读 取 格 式 信息 ， 使 用 wave 库 的 getparams 方法 。 该 方法 返回 的 信息 中 比较 重要 的 
是 前 4 项， 依次 为 通道 数 、 样 本 宽度 、 样 本 频率 、 波 形 数据 长 度 。 

# 读 取 格 式 信 息 


#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 
nchannels, sampwidth, framerate, nframes = params[:4] 


(3 ) 读 取 波形 数据 ， 波 形 数据 是 WAV 文件 采样 后 生成 的 采样 数据 ， 使 用 wave 库 的 
readframes 方法 读 取 ， 该 方法 返回 的 数据 是 字符 类 型 。 

# 读 取 波 形 数据 

str data = f.readframes (nframes) 

(4 ) 转换 波形 数据 为 Numpy 的 整 型 数组 对 象 。 

# 将 波形 数据 转换 为 数组 


wave_ data = np.fromstring(str data, dtype=np.short) 
wave data.shape = -1, 2 
wave _ data = wave data.T 


(5 ) 计算 时 间 轴 。 


time = np.arange (0, nframes) * (1.0 / framerate) 


(6 ) 绘制 波形 ， 绘 制 前 调用 pylab 的 subplot 方法 创建 两 个 上 下 形式 的 绘图 区 ， 每 个 绘 
图 区 各 绘制 一 个 声 道 的 数据 。 下 面 程序 中 subplot 方法 的 参数 共 3 位 整数 ， 从 左边 开始 每 位 
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依次 表示 绘图 区 总 数 、 列 数 、 创 建 区 域 所 属 绘图 的 索引 ， 比 如 subplot(212) 表示 绘图 区 有 2 
个 , 一 共 1 列 ， 当 前 索引 为 第 2 个 绘图 区 。 

# 绘 制 波形 

# 创 建 上 边 的 绘图 区 

pl.subplot (211) 

# 绘 制 左 声 道 

pl.plot (time, wave data[0]) 

# 创 建 下 边 的 绘图 区 

P1L.subplot (212) 

# 绘 制 右 声 道 

pl.plot (time, wave data[l1l], c="g") 


上 述 绘 制 声音 波形 过 程 的 完整 代码 如 下 : 


#!/usr/bin/env python 

# -*- coding; utf-8 -*- 

#code:myhaspl@qaq.com 

#4-13.py 

import wave 

import pylab as pl 

import numpy as np 

print 'working...' 

# 打 开 WAV 文 档 

f = wave.open(r"back.wav", "rb") 

# 读 取 格 式 信息 

#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 

nchannels, sampwidth, framerate, nframes = params[:4] 
# 读 取 波 形 数据 

str data = f.readframes (nframes) 

f.close() 

# 将 波形 数据 转换 为 数组 

wave data = np.fromstring(str data, dtype=np.short) 
wave data.shape = -1, 2 

wave data = wave data.T 

time = np.arange (0, nframes) * (1.0 / framerate) 

# 绘 制 波 形 

pl.subplot (211) 

pl.plot (time, wave data[0]) 

pl.subplot (212) 

pl.plot (time, wave data[ll], c="g") 

pl.xlabel ("time (seconds)") 

pl.show() 


程序 读 取 声音 文件 后 ,绘制 出 如 图 4-21 所 示 的 波形 。 

这 个 波形 表现 出 : 声音 信号 较 连续 ， 随 着 时 间 的 推移 ， 变 化 不 明显 ， 没 有 停顿 ， 因 此 ， 
这 是 一 段 音乐 或 噪声 等 声音 而 不 是 人 声 ， 因 为 人 说 话 的 声音 有 个 特点 ， 就 是 每 个 字 之 间 有 人 少 
量 停顿 。 语 音 停 顿 期 间 ， 声 音 采 样 软 件 采样 不 到 数据 ， 过 了 这 个 停顿 期 ， 波 形 会 有 明显 的 变 
化 ， 如 图 4-22 所 示 波 形 就 是 典型 的 说 话 声音 波形 。 
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图 4-21 声音 波形 绘制 图 4-22 说 话 声音 波形 


4.1.8 声音 音量 调节 

声音 音量 的 调节 方式 与 图 像 亮度 调整 类 似 ， 不 同 的 是 音量 调节 的 是 波形 大 小 。 音 量 调节 
通过 调节 采样 波形 的 大 小 实现 ， 采 样 数据 变 大 时 ， 声 音 音量 放大 ， 采 样 数据 变 小 时 ， 声 音 音 
量 降低 。 音 量 不 能 无 限 调节 ， 音 量 过 大 或 过 小 ， 会 形成 难听 的 噪音 ， 使 声音 失真 。 


1. 放大 音量 

下 面 编写 代码 演示 音量 的 放大 。 为 保证 声音 质量 ， 需 要 对 音量 调节 范围 设置 上 限 和 下 限 
(以 原声 音 为 基准 计算 上 限 、 下 限 )。 为 此 ， 编 写 wavechange 吨 数 ， 计 算 调整 后 的 数据 ， 其 
参数 x 为 每 次 采样 的 波形 数据 ，dwmax 为 上 限 ，dwmin 为 下 限 ， 该 函数 仅 会 将 上 限 与 下 限 
之 间 区 域内 的 数据 放大 为 原来 的 1.5 倍 ， 在 此 区 域外 的 数据 则 设置 为 上 限 或 下 限 。 


def wavechange (x, dwmax, dwmin): 
if x!=0: 

if abs (x)>dwmax: 
X=X/abs (X) *dwmax 

elif abs (x) <dwmin: 
X=X/abs (x) *dwmin 

else: 
X=X*1 .5 


return x 


为 保证 放大 后 声音 不 失真 ， 可 采用 以 原声 音 为 基准 的 放大 策略 ， 声 音波 形 图 像 类 似 正 
弦 函 数 图 像 ， 在 以 时 间 轴 为 X 轴 、 采 样 数据 为 Y 轴 的 坐标 系 中 ， 波 形 数据 可 正 可 负 ， 上 下 
波动 。 因 此 ， 以 原声 音 数据 的 最 大 值 为 依据 计算 上 下 限 ， 上 限 为 原声 音 数 据 最 大 值 的 88% ， 
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下 限 为 原声 音 数 据 最 大 值 的 14%。 

使 用 wave_data.max() 获取 原声 音波 形 的 最 大 数据 值 (max 函数 返回 数组 的 最 大 值 )， 然 
后 通过 frompyfunc 函数 设置 调节 音量 的 回调 函数 为 刚刚 定义 的 wavechange 函数 ， 最 后 对 数 
据 进行 放大 调节 。 

# 放 大 音量 


change_dwmax=wave_data.max()/100*88 

change dwmin=wave data.max()/100*14 

wave_change = np.frompyfunc (wavechange,3,1) 

new_ wave data =wave change (wave_ data,change dwmax,change dwmin) 


声音 数据 放大 后 ， 需 要 将 新 数据 写 人 新 的 声音 文件 中 。 首 先 以 写 方式 新 建新 声音 文件 : 


fo = wave.open(r"jg.wav", "wb") 


然后 ， 设 置 新 文件 的 数据 参数 为 源 文件 的 数据 参数 ， 并 写 到 新 声音 文件 中 。 放 大 音量 并 
没有 改变 格式 信息 ， 因 此 ， 放 大 后 的 声音 与 源 声音 的 格式 信息 一 样 。 
# 写 波形 数据 参数 


Print "save new wav files...." 
fo.setnchannels (nchannels) 
fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 


最 后 调用 writeframes() 方法 ， 以 放大 后 声音 数据 为 参数 将 数据 写 人 新 建 的 声音 文件 中 。 


fo.writeframes (new_str_qata) 


下 面 的 代码 演示 了 放大 音量 的 算法 ， 并 绘制 出 了 源 声音 波形 与 放大 后 的 声音 波形 。 


#!/usr/bin/env Python 
# -*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#4-14.py 
import wave 
import pylab as pl 
import numpy as np 
def wavechange (x, dwmax, dwmin): 
if x!=0: 
if abs (x)>dwmax: 
X=X/abs (x) *dwmax 
elif abs (x) <dwmin: 
x=Xx/abs (x) *dwmin 
else: 
Xx=X*1 .5 
return x 
# 打 开 WAV 文 档 
f = wave.openl(r"speak.wav", "rb") 
fo = wave.open(r"jg.wav", "wb") 
# 读 取 波 形 数据 
#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 
nchannels, sampwidth, framerate, nframes = Params [:4] 
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print "read wav data...." 

str data = f.readframes (nframes) 

# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update waV data...." 

wave data = np.fromstring(str data, dtype=np.short) 
params = f.getparams () 

nchannels, sampwidth, framerate, nframes = Params [:4] 
str data = f.readframes (nframes) 

# 放 大 音量 

change dwmax=wave data.max()/100*88 

change dwmin=wave data.max()/100*14 

wave change = np.frompyfunc (wavechange,3,1) 

new wave data =wave change (wave data,change dwmax,change dwmin) 
new wave data =new wave data.astype (wave_data.dtype) 
new_ str data=new wave data.tostring() 

# 写 波形 数据 参数 

print "save new wav files...." 

fo.setnchannels (nchannels) 

fo.setframerate (framerate) 

fo.setsampwidth (sampwidth) 

fo.writeframes (new_str data) 

# 绘 制 源 声音 波形 

wave data.shape = -1, 2 

wave data = wave data.T 

time = np.arange (0, nframes) * (1.0 / framerate) 
pl.subplot (221) 

pl.plot (time, wave data[0]) 

pl.subplot (222) 

pl.plot (time, wave data[ll], c="g") 

pl.xlabel ("time (seconds)") 

# 绘 制 放大 音量 波形 

new wave data.shape = -1, 2 

new wave data =new wave data.T 

new time = np.arange (0, nframes) * (1.0 / framerate) 
pl.subplot (223) 

pl.plot (new time,new wave data[0]) 

pl.subplot (224) 

pl.plot (new time, new wave data[l], c="g") 

pl.xlabel ("time (seconds)") 

pl.show () 


如 图 4-23 所 示 波 形 图 中 ， 上 部 为 源 声音 ， 下 部 显示 了 音量 放大 后 的 波形 。 下 部 的 波形 
数据 范围 为 -20000~20000， 而 上 部 范围 为 -1$000 一 15000， 下 部 波形 整体 比 上 部 大 很 多 。 
下 载 本 书 的 代码 包 运 行 后 ， 可 听 到 音量 放大 后 的 声音 效果 。 


2. 降低 音量 

音量 降低 可 通过 将 采样 波形 变 小 来 实现 ， 具 体 来 说 ， 就 是 把 每 个 采样 数据 按 指定 比例 缩 
小 ， 同 时 将 缩小 幅度 控制 在 合理 的 范围 内 ， 保 证 音量 降低 后 声音 仍然 清晰 。 

(1 ) 根据 上 下 限 参 数 对 波形 数据 进行 调节 ， 定 义 缩小 波形 数据 的 函数 为 wavechange。 
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图 4-23 声音 音量 放大 波形 


def wavechange (x, dwmax, dwmin): 
if x!=0: 
if abs (x) <dwmax and abs (x)>dwmin: 
X=X*0.5 
else: 
Xx=X*0 .2 
return x 


(2) 与 放大 音量 类 似 ， 以 源 声 音波 形 数据 的 最 大 值 为 基准 ,计算 上 限 和 下 限 ， 以 
wavechange 为 回调 函数 ， 降 低音 量 。 
# 降 低音 量 


change dwmax=wave data.max()/100*1 

change dwmin=wave data.max()/100*0.5 

wave change = np.frompyfunc (wavechange,3,1) 

new_ wave data =wave_ change (wave data,change dwmax,change dwmin) 


(3 ) 生成 新 波形 数据 。 


new wave data =new wave data.astype (wave data.dtype) 
new_str data=new wave data.tostring() 


(4) 将 数据 写 到 新 声音 文件 。 
# 写 波形 数据 参数 


fo.setnchannels (nchannels) 
fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
fo.writeframes (new_ str data) 


下 面 的 代码 演示 了 降低 音量 算法 。 
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#!/usr/bin/env Python 
着 =*= coding; utf-8 =*= 
#code:myhaspl@qq.com 
#4-15.py 
import wave 
import pylab as pl 
import numpy as np 
print ‘'working...' 
def wavechange (x, dwmax, dwmin): 
if x!=0: 
if abs (x)<dwmax and abs (x)>dwmin: 
X=X*0.5 
else: 
X=Xx0 .2 
return x 
# 打 开 WAV 文 档 
f = wave.open(r"back.wav", "rb") 
fo = wave.open(r"jg.wav", "wb") 
# 读 取 波 形 数据 
#(nchannels, sampwidth, framerate, nframes, comptype, compname) 
Params = f.getparams () 
nchannels, sampwidth, framerate, nframes = params[:4] 
print "read wav data...." 
str data = f.readframes (nframes) 
# 将 波形 数据 转换 为 数组 ， 并 更 改 
print "update wav data...." 
wave data = np.fromstringl(str data, dtype=np.short) 
params = f.getparams () 
nchannels, sampwidth, framerate, nframes = params[:4] 
str data = f.readframes (nframes) 
# 降 低音 量 
change dwmax=wave data.max()/100*1 
change dwmin=wave data.max()/100*0.5 
wave change = np.frompyfunc (wavechange,3,1) 
new wave data =wave change (wave data,change dwmax,change dwmin) 
new wave data =new wave data.astype (wave_data.dtype) 
new_str data=new wave data.tostring() 
# 写 波形 数据 参数 
print "save new wav files...." 
fo.setnchannels (nchannels) 
fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
fo.writeframes (new_str data) 
# 绘 制 源 声音 波形 
wave data.shape = -1, 2 
wave data = wave data.T 
time = np.arange (0, nframes) * (1.0 / framerate) 
pl.subplot (221) 
pl.plot (time, wave data[0]) 
pl.subplot (222) 
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pl.plot (time, wave data[ll], c="g") 
pl.xlabel ("time (seconds)") 

# 绘 制 降低 音量 波形 

new wave data.shape = -1, 2 

new wave data =new wave data.T 

new time = np.arange(0, nframes) * (1.0 / framerate) 
pl.subplot (223) 

pl.plot (new time,new wave data[0]) 
pl.subplot (224) 

pl.plot (new time, new wave data[l], c="g") 
pl.xlabel ("time (seconds)") 

pl.show() 


如 图 4-24 所 示 的 波形 图 中 ， 上 面 为 源 声音 ,下面 为 降低 音量 后 的 声音 波形 。 可 明显 
看 出 ， 音 量 缩小 后 ， 其 波形 幅度 为 -3000 一 3000， 而 源 声 音波 形 范 围 大 很 多 ， 为 -15000 一 
15000。 





图 4-24 声音 音量 缩小 波形 


4.1.9 ”图 像 信 息 隐藏 


1. 图 像 隐藏 原理 

信息 隐藏 是 不 让 除 预期 接收 者 之 外 的 任何 人 知晓 信息 的 传递 事件 或 者 信息 的 内 容 ， 载 体 
文件 相对 隐秘 文件 的 大 小 越 大 ， 隐 藏 后 者 就 越 加 容易 。 因 此 ， 数 字 图 像 在 互联 网 和 其 他 传媒 
上 被 广泛 用 于 隐藏 消息 。 
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本 节 讲 述 的 图 像 隐藏 原理 是 : 首先 从 源 图 中 提取 文字 图 像 信 息 ， 并 记录 这 个 文字 图 像 信 
息 像 素 点 在 图 像 矩 阵 中 的 位 置 ; 然后 ， 对 载体 文件 进行 预 处 理 ， 将 蓝 色 像素 值 全 部 设 为 偶 
数 ; 最 后 ， 将 记录 的 文字 信息 像素 点 在 载体 文件 对 应 位 置 的 蓝 色 像 素 值 设 为 奇数 。 解 密 信 息 
是 隐藏 信息 的 逆 过 程 ， 其 过 程 比较 简单 ， 即 提取 载体 文件 中 蓝 色 像 素 值 为 奇数 的 像素 点 ， 将 
空白 图 像 中 这 些 像素 点 对 应 的 位 置 赋予 统一 的 着 色 。 

2. 图 像 隐藏 实例 

下 面 用 实例 来 讲解 图 像 信 息 隐 藏 技术 。 我 们 的 目标 是 : 将 如 图 4-25 所 示 的 文字 隐藏 在 
如 图 4-26 所 示 的 载体 图 片 里 。 要 求 隐 藏 后 ， 无 法 察觉 图 中 隐藏 了 信息 。 





图 4-25 含有 待 隐藏 文字 的 图 像 图 4-26 载体 图 像 


本 实例 隐藏 信息 的 主要 过 程 如 下 : 
(1 ) 读 取 源 图 像 (将 写 上 需 隐藏 文字 的 信息 ) 和 载体 图 像 ， 构 造 图 像 矩 阵 。 


imgl = cv2.imread (fnl) 
img2 = cv2.imread (fn2) 
w=imgl .shape[1ll] 
h=imgl .shape[0] 


(2 ) 在 源 图 像 中 加 上 水 印 文字 作为 待 隐 藏 文字 。 


# 加 上 需要 隐藏 的 消息 
cv2.putText (imgl, "hello,world!", (20,300),cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness = 2) 
cv2.putText (imgl,"code by myhaspl:myhaspl@qq.com", (20,60),cv2.FONT HERSHEY_ 
PLAIN, 2.0, redcolor, thickness = 2) 
cv2.putText (imgl, "Installing Python is generally easy. ", (1,90),cv2.FONT_ 
HERSHEY PLAIN, 2, redcolor, thickness = 1) 


(3 ) 处 理 隐藏 载体 图 ， 将 所 有 蓝 色 值 变 成 偶数 ， 以 便 加 入 隐藏 信息 。 


# 处 理 隐 藏 载体 图 
# 将 所 有 蓝 色 值 变 成 偶数 
for ]j in xrange (0,h): 
for i in xrange (0,w): 
if (img2[j,i,0]%2)==1: 
img2[j,i,0]=img2[j,i,0]-1 
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〈4 ) 读 取 源 图 ， 将 源 图 的 文字 像素 点 在 载体 文件 的 对 应 位 置 的 蓝 色 像素 值 设 为 奇数 ， 将 
需要 隐藏 的 信息 写 人 目标 载体 图 。 
# 读 取 源 图 ， 并 将 信息 写 入 目标 载体 图 


for j in xrange (0,h): 
for i in xrange (0,w): 
if (imgl[j,i,0],imgl[j,i,1],imgl[j,i,2])==redcolor: 
img2[j,i,0]=img2[j,i,0]+1 


(5 ) 保存 修改 后 的 目标 载体 图 。 


cv2.imshow('img2-2', img2) 
cv2.imwrite (fn3, img2) 


下 面 的 代码 演示 了 隐藏 信息 的 过 程 。 


#!/usr/bin/env python 
#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#4-16.py 

import cv2 

import numpy as np 

# 含 有 文字 的 图 像 
fnli="testl1 .jpg" 

# 载 体 文件 
fn2="test2.jpg" 

# 包 含 隐藏 信息 的 载体 文件 
fn3="secret .png" 
redcolor=(0, 0, 255) 


if name =="' main _': 
print u' 正 在 处 理 中 '， 
# 图 像 大 小 


imgl = cv2.imread (fnl) 

img2 = cv2.imread (fn2) 

w=imgl .shape[1] 

h=imgl .shape[0] 

# 加 上 需要 隐藏 的 消息 

cv2.putText (imgl, "hello,world!", (20,300),cv2.FONT HERSHEY PLAIN, 3.0, 
redcolor, thickness = 2) 

cv2.putText (imgl, "code by myhaspl:myhaspl@qq.com", (20,60),cv2.FONT HERSHEY_ 
PLAIN, 2.0, redcolor, thickness = 2) 

cv2.putText (imgl,"Installing Python is generally easy. ", (1,90),cv2.FONT 
HERSHEY PLAIN, 2, redcolor, thickness = 1) 


cv2.namedWindow ('imgl') 
cv2.imshow('imgl', imgl) 
cv2 .namedWindow ('img2-1"') 
cv2.imshow('img2-1', img2) 
# 处 理 隐 藏 载体 图 
# 将 所 有 蓝 色 值 变 成 偶数 
for j in xrange (0,h) : 

for i in xrange (0,w): 
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if (img2[j,i,0]%2)==1: 
img2[j,i,0]=img2[j,i,0]-1 
BEinE a 
mirror w=w/2 
# 读 取 源 图 ， 并 将 信息 写 入 目标 图 ， 将 有 信息 的 像素 点 的 蓝 色 值 设 为 奇数 
for j in xrange (0,h): 
for i in xrange (0,w): 
if (imgl [j,i,0],imgl[j,i,1],imgl [j,i,2])==redcolor: 
img21j7t; 0]=img2 [13], 二 0]+1 
PELRG ‘a!y 
# 保 存 修改 后 的 目标 图 ， 并 显示 
cv2.namedWindow ('img2-2') 
cv2.imshow('img2-2', img2) 
cv2 .imwrite (fn3, img2) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


运行 上 段 代码 将 信息 隐 茂 后， 肉眼 观 察 载体 图 像 ， 仍 无 法 察觉 与 相 比 之 前 有 任何 变化 。 

下 面 来 看 看 解密 信息 过 程 。 解 密 信息 与 隐藏 信息 相反 ， 是 隐藏 信息 的 逆 过 程 ， 主 要 步 又 
如 下 : 

(1 ) 读 取 载体 文件 及 其 大 小 信息 。 


img = cv2.imread (fn) 
w=img .shapel[1] 
h=img.shape[0] 


《2 ) 生成 空白 图 像 和 矩阵， 以 便 绘 制 解密 文 字 。 


imginfo =np.zeros((h,w,3), np.uint8) 


(3 ) 绘制 解密 的 水 印 文字 。 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 。 


for j in xrange (0,h): 
for i in xrange (0,w): 
if (img[j,i,0]%2)==1: 
imginfo[j,i,1]=255 


(4) 显示 隐藏 信息 。 


cv2.imshow('info', imginfo) 
cv2 ,imwrite (fn, imginfo) 


下 面 代码 演示 了 解密 信息 的 过 程 。 


#!/usr/bin/env Python 

#-*— Goding: Utf-8 一 “一 

#code:myhaspl@qq.com 

# 解 密 文 件 

#4-17.py 

import cv2 

import numpy as np 

fn="secret .png" 

if name == "' main 1!: 
VELAt "Goading wn 
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print u' 正 在 处 理 中 '， 
img = cv2.imread (fn) 
w=img.shape[1] 
h=img .shape[0] 
imginfo =np.zeros((h,w,3), np.uint8) 
for j] in xrange (0,h): 

fcr i in xrange (0,w): 

if (img[j,i,0]%2)==1: 
# 如 果 蓝 色 值 为 奇数 ， 则 该 像素 点 为 文字 
imginfo[j,i,1]=255 

Print ‘as" 
cv2.imshow('info', imginfo) 
cv2.imwrite (fn, imginfo) 
cv2 .waitKey () 
cv2.destroyAllWindows () 


运行 解密 代码 ， 从 载体 文件 中 提取 信息 ， 效 果 如 图 
4-27 所 示 。 


4.1.10 声音 信息 隐藏 


1. 声音 信息 隐藏 原理 

声音 文件 是 一 个 不 错 的 信息 隐藏 载体 ， 声 音 文件 数据 量 大 ， 能 隐藏 信息 的 容量 也 大 ， 假 
设 每 秒 采 集 44100 次 ， 如 果 所 有 采样 数据 全 部 利用 上 ， 每 秒 的 声音 可 以 存储 44100 字 节 的 数 
据 ， 不 过 这 样 达 不 到 信息 隐藏 的 效果 ， 只 能 利用 其 中 一 部 分 采样 数据 来 存储 信息 ， 占 有 的 采 
样 数据 越 少 ， 信 息 隐藏 效果 就 越 好 。 

比如 ， 如 图 4-28 所 示 的 波形 是 一 段 音乐 的 声音 波形 ， 假 设 某 个 采样 点 的 数据 实际 是 信 
息 中 一 个 字 节 大 小 的 数据 ， 那 么 将 这 = 
些 字 节 解密 后 ， 能 还 原 成 一 段 信息 。 | 窒 合 十 艺 枯 国志 
这 种 载体 的 隐藏 信息 的 效果 比 图 像 好 ， 
一 般 很 难 被 人 发 现 。 

这 里 采用 的 隐藏 策略 是 : 产生 一 
段 正 弦 波 的 噪声 ， 然 后 ， 在 这 段 噪声 
中 隐藏 一 段 文本 文件 的 内 容 。 下 面 以 
实例 来 讲解 这 个 过 程 ， 我 们 的 目标 是 : 
将 本 章 前 面 讲述 的 Python 代码 文件 
4-1.py 隐藏 到 一 段 噪 声 中 ， 解 密 者 如 
果 不 知道 信息 解密 的 规律 ， 就 无 法 从 
噪声 文件 还 原 这 个 Python 代码 文件 。 


2. 声音 信息 隐藏 实例 
隐藏 信息 的 具体 过 程 如 下 : 图 4-28 音乐 的 声音 波形 
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图 4-27 解密 后 的 文字 


-a 
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(1 ) 读 取 需要 隐藏 的 文本 文件 ， 提 取 其 中 的 文字 信息 。 
# 打开 文档 
fo = wave.openl(r"pltest.wav", "wb") 
file object = open('4-1.py') 
try: 
all the text = file object.read( ) 
finally: 
file object.closel( ) 
(2 ) 将 文字 转化 为 对 应 的 内 部 编码 ( 本 例 的 文字 为 英文 字母 和 符号 ， 因 此 转换 为 
ASCII 码 )。 


wdata=map (ord,all the text) 

wdata=np.array (wdata) 

(3 ) 设置 噪声 载体 文件 的 波形 参数 。 载 体 文件 是 程序 人 为 生成 ， 所 以 将 幅度 设置 为 适合 
的 区 域 ， 为 使 载体 噪声 更 接近 于 自然 的 噪声 ， 将 振幅 范围 设置 为 -25600 一 25600。 

# 设置 波形 参数 

# 采 样 率 

framerate = 44100 

# 声 道 数 

nchannels=2 

# 每 位 宽度 

sampwidth=2 

# 长 度 

nframes =framerate*4 

# 振 幅 

base anmplitude = 200 

max amplitude=128*base amplitude 

(4) 计算 每 个 字符 的 间隔 ， 需 要 隐藏 的 若干 个 字符 以 等 间隔 的 形式 分 散在 噪声 数据 中 ， 
即 : 在 噪声 波形 数据 中 ， 每 隔 指定 的 间隔 存放 一 个 字符 。 

# 每 个 字符 的 间隔 

interval= (nframes-10) /lwdata 

(5 ) 生成 空 波形 数据 ， 以 便 写 入 噪声 数据 和 字符 信息 。 

# 每 周期 样本 数 

wave data=np.zeros( (nframes), dtype=np.short) 

(6 ) 生成 噪声 数据 ， 并 将 隐藏 文字 的 字符 写 人 噪声 数据 中 ， 这 一 步 是 关键 ， 也 是 算法 的 
核心 。 算 法 把 整个 采样 的 线性 区 域 分 为 两 类 ， 如 果 当 前 采样 时 间 处 于 第 4 步 计 算 的 间隔 处 ， 
则 表示 此 处 为 加 密 字符 区 ( 每 个 字符 区 只 能 存放 一 个 字符 )， 写 入 的 数据 为 经 过 加 密 的 字符 ， 
在 间隔 之 前 的 时 间 区 域 则 为 随机 噪声 区 。 

算法 判断 是 否 到 了 指定 的 间隔 处 ， 间 隔 处 是 字符 区 ， 和 否则 是 噪声 区 。 如 果 是 噪声 区 ， 则 
随机 生成 噪声 ; 如 果 是 字符 区 ， 则 将 字符 进行 加 密 ， 写 入 字符 区 。 此 处 使 用 了 简单 的 加 密 算 
法 (实际 应 用 可 使 用 高 强度 的 加 密 算法 )， 加 密 方式 为 : 将 字符 的 ASCII 码 乘 以 指定 的 整数 
后 ， 减 去 64 与 该 整数 的 乘积 。 生 成 的 信息 隐藏 格式 如 表 4-2 所 示 。 
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表 4-2 信息 隐藏 格式 


加 密 字符 区 随机 噪声 区 加 密 字符 区 
es | 


算法 代码 如 下 : 
# 写 噪声 数据 和 隐藏 文字 的 字符 


myrand=np.random.rand (nframes) 










for curpos in xrange (0,nframes): 

if curpos % interval==0 and count<lwdata: 

# 将 隐藏 文字 的 字符 通过 一 定 的 变化 写 入 噪声 数据 中 
possamp=wdata[count]*base amplitude-64*base amplitude 
count+=1 

elif curposs60==0 : 

# 生 成 随机 噪声 数据 - 
possamp=int (myrand[curpos]*max amplitude-max amplitude/2) 

else: 
possamp=0 

wave_datal[lcurpos]=possamp 


(7 ) 写 波形 数据 。 

# 写 波形 数据 参数 

print "save new wav files...." 
str data=wave data.tostring() 
fo.setnchannels (nchannels) 
fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
fo.setnframes (nframes) 
fo.writeframes (str data) 


下 面 来 看 看 解码 信息 过 程 ， 解 码 信 息 是 隐藏 信息 的 逆 算 法 ， 主 要 步骤 如 下 : 
(1 ) 读 取 噪声 载体 文件 以 及 相关 格式 信息 。 


new_wdata= [] 

Print u' 正 在 从 声音 解码 文件 ' 

fi = wave.open(r"pltest.wav", "rb") 

fi params=fi .getparams () 

fi nframes = fi params[3] 

fi str data=fi.readframes (fi nframes) 

fi wave data= np.fromstring(fi str data, dtype=np.short) 


(2 ) 找到 字符 区 ， 将 其 中 的 字符 解密 并 还 原 成 字符 串 。 


for curpos in xrange (0,nframes): 
if curpos % interval==0 and count<lwdata: 
possamp= (fi wave data[curpos]+64*base amplitude)/base amplitude 
new_wdata.append (possamp) 


count+=1 
(3 ) 整理 还 原 字符 串 ， 将 它们 写 入 文件 。 
my_ the text="" .join (map (chr,new wdata)) 
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fmy the text="".join(mapl(chr,new wdata)) 
file object = open('mytext.txt', 'w') 
file object.write(my the text) 

file object.closel( ) 


下 面 程序 读 取 名 为 4-1.py 的 Python 源 程序 文件 ， 将 该 文本 隐藏 在 声音 文件 中 ， 然 后 打 
开 载 体 声音 文件 ， 将 文本 还 原 为 Python 程序 文件 。 


#!/usr/bin/env Python 
# =*= coding: utf=8 =*= 
#code:myhaspl@qq.com 
# 将 文件 隐藏 在 声音 之 中 
#4-18.py 
import wave 
import pylab as pl 
import numpy as np 
# 编 码 
print u' 正 在 将 文件 编码 进 声 音 ' 
print "generate wav data...." 
# 打 开 文档 
fo = wave.openl(r"pltest.wav", "wb") 
file object = open('4-1.py') 
try: 
all the text = file object.read( ) 
finally: 
file object.close( ) 
wdata=map (ord,all the text) 
wdata=np.array (wdata) 
lwdata=len (wdata) 
# 设 置 波 形 参数 
# 采 样 率 
framerate = 44100 
# 声 道 数 
nchannels=2 
# 每 位 宽度 
sampwidth=2 
# 长 度 
nframes =framerate*4 
# 振 幅 
base amplitude = 200 
max amplitude=128*base amplitude 


# 每 个 字符 的 间隔 

interval= (nframes-10) /lwdata 

# 每 周期 样本 数 

wave data=np.zeros( (nframes), dtype=np.short) 
count=0 

# 写 噪声 数据 和 隐藏 文字 的 字符 


myrand=np.random.rand (nframes) 
for curpos in xrange (0,nframes): 
if curpos % interval==0 and count<lwdata: 
possamp=wdata[count]*base amplitude-64*base amplitude 
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count+=1 
elif curpos%®%60==0: 
possamp=int (myrand[curpos]*max amplitude-max amplitude/2) 
else: 
possamp=0 
wave data[lcurpos]=possamp 
# 写 波形 数据 参数 
print "save new wav files...." 
str data=wave data.tostring() 
fo.setnchannels (nchannels) 
fo.setframerate (framerate) 
fo.setsampwidth (sampwidth) 
fo.setnframes (nframes) 
fo.writeframes (str data) 
fo.close() 
# 绘 制 波形 
wave_ data.shape = -1, 2 
wave data = wave data.T 
time = np.arange (0, nframes/2) 
pl.subplot (211) 
pl.plot (time, wave data[0], c="r") 
pl.subplot (212) 
pl.plot (time, wave datal[ll], c="g") 
pl.xlabel ("time (seconds)") 
# 解 码 
new_wdata=[] 
print u' 正 在 从 声音 解码 文件 ' 
fi = wave.openl(r"pltest.wav", "rb") 
fi params=fi.getparams () 
fi nframes = fi params[3] 
fi_str data=fi.readframes (fi nframes) 
fi wave data= np.fromstring(fi str data, dtype=np.short) 
count=0 
for curpos in xrange (0,nframes) : 
if curpos % interval==0 and count<lwdata: 
possamp= (fi wave data[curpos]+64*base amplitude)/base amplitude 
new_wdata.append (possamp) 
count+=1 
my_the text="" .join (map (Chrvnew_wdata) ) 
file object = open('mytext.txt', 'w') 
file object.write(my the text) 
file object.close( ) 
pl.show() 


运行 这 段 代码 ， 程 序 输出 了 编码 和 解码 过 程 。 
正在 将 文件 编码 进 声音 


generate wavV data.... 
Save new wav files.... 


正在 从 声音 解码 文件 
上 面 程序 演示 了 隐藏 信息 与 解码 信息 的 过 程 。 程 序 运行 后 ， 先 将 Python 源 代码 文件 4-1. 
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py 隐藏 在 一 段 噪声 中 。 然 后 ， 从 噪声 中 解码 信息 ， 将 文本 内 容 输出 到 mytext.txt 中 ， 用 记事 
本 打开 该 文件 ， 如 图 4-29 所 示 。 可 以 看 到 解码 后 的 程序 和 源 程序 一 样 ， 包 括 空 格 、 符 号 及 
字母 等 。 


np DC 
#4-1, py 
import cv2 


fn= ”test1l. jpg” 


if ==“_ma 


了 


_name _main ”: 
print “http://blog. csdn. net/myhaspl 


print ’ myhaspl@qq. com 

print 

print ’ loading %s ...” % fn 
img = cv2. imread(fn) 

cv2. imshow( preview , img) 
cv2. waitKey( 

cv2. destroyAllWindows () 





图 4-29 解码 后 文件 


如 图 4-30 所 示 是 程序 运行 后 生成 的 声音 波形 图 像 ， 很 难看 出 来 哪些 采样 点 隐藏 了 文本 
信息 。 下 载 本 书 源码 包 后 ， 可 以 播放 这 上段 声音 (运行 4-18.py 后 ， 会 产生 声音 文件 pltest. 
wav )， 只 能 听 出 声音 是 一 段 很 平常 的 噪声 。 





一 一 1 - | ia 
0 10 000 20000 30000 40000 50000 60000 70000 80000 90 000 
图 4-30 ”隐藏 了 文本 信息 的 波形 





3. 信息 隐藏 与 解码 总 结 

综 上 所 述 ， 隐 藏 信息 的 算法 过 程 为 : 

(1 ) 读 取 程 序 文本 文件 ， 将 字符 转换 为 ASCII 码 。 

(2 ) 确定 声音 文件 的 相关 参数 ， 生 成 2 秒 声音 ， 其 中 采样 数据 用 随机 数 代替 ， 生 成 随机 
数 的 取 值 范围 为 -15000 一 15000， 在 某 些 采 样 点 上 用 来 自 隐藏 信息 的 字符 字 节 代替 ， 代 替 的 
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方式 是 将 字 节 对 应 的 ASCII 码 乘 上 某 个 基数 加 一 个 调整 参数 ， 代 替 的 过 程 是 线性 的 。 
(3 ) 将 生成 的 声音 数据 写 人 载体 文件 中 。 
解码 信息 的 算法 过 程 为 : 
(1 ) 读 取 载体 声音 文件 及 其 相关 参数 。 
(2 ) 按照 隐藏 信息 时 的 规律 ,在 正确 的 位 置 读 取 字 符 ， 然 后 将 读 取 的 字符 合成 信息 。 
(3 ) 将 信息 写 人 恢复 文件 中 。 


4.2 ”RR 语言 基础 


R 是 用 于 统计 分 析 、 绘 图 的 语言 和 操作 环境 ， 是 统计 计算 和 统计 制图 的 优秀 工具 ， 属 于 
GNU 系统 的 一 个 自由 、 免 费 、 源 代码 开放 的 软件 。 其 GUI 界面 主要 包括 菜单 、 命 令 控制 台 ， 
在 Windows 平台 下 的 界面 如 图 4-31 所 示 。 


RR version 3.0.0 (2013-04-03) 一 "Masked Marvel”" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
证 Plarform: 1386-w64-mingw32/i386 (32-bic) 


| a 是 自由 软件 ， 不 带 任何 担保 
| 在 某 些 条 件 下 你 可 以 将 其 自由 
| 用 '1icense() ' 或 'licence1)， 菜 党 放 布 的 详细 条 件 . 


| 是 个 合作 计划 ， 有 许多 人 为 之 化 出 了 贡献 . 

| 'contributors() :来 看 者 的 详细 情况 

| 用 ,etracion() 会 告诉 你 如 何在 出 版 物 中 正确 地 引用 或 R 程 序 包 。 

| 用 ,deno() ,来 看 一 些 示 范 程序 ， 用 ,help()， 来 风扇 在 线 帮 且 文件， 或 
上 担 : betb ete 通过 #TML 浏 览 善 来 看 帮助 

4 “al 


沁 





图 4-31 R 的 GUI 界面 


4.2.1 基本 操作 
1. 提示 符 


R 以 “>” 为 shell 提示 符 ， 与 Windows、Linux、MAC 一 致 。 
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2. 获得 帮助 的 方式 
在 R 中 使 用 help 函数 获取 某 个 命令 或 函数 的 帮助 。 下 面 是 获取 求 平均 值 函数 的 帮助 函数 : 


> help (mean) 
starting httpd help server ... done> 


输入 上 述 命 令 后 ， 显 示 如 下 HTML 形式 的 帮助 文档 : 





如 果 想 进一步 获得 这 个 函数 的 调用 示例 ， 可 以 通过 example 命令 。 
> example (mean) 
mean> x <- c(0:10, 50) 
mean> xm <- mean (x) 
mean> cl(xm, mean(x, trim = 0.10)) 
Li 8.25 35.50 


3. 文件 载 入 并 执行 代码 

使 用 source 函数 载 人 并 执行 代码 ， 把 以 下 代码 放 在 一 个 名 为 test.r 的 文件 ， 用 文本 编辑 
工具 录 人 和 人。 

x<-c (22,23,44,66); 

y<-mean (x);y 

然后 加 载 执行 ， 查 看 输出 结果 。 


> source("f:/pro/r/test.r") 
> Y 

[1] .38;>75 

入 活 

[1] 22 23 44 66 


最 后 将 执行 结果 写 人 文件 。 

> sink("f:/pro/r/test.1is") 
> 

> Y 

打开 test.lis， 可 看 到 以 下 内 容 : 


[1] 22 23 44 66 
[11 ‘38.75 
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如 果 采 用 不 带 参数 的 sink， 将 恢复 结果 。 示 例如 下 : 


> sink() 
>x 
[1] 22 23 44 66 


4. 代码 续 行 

在 行 尾 使 用 “+” 可 进行 续 行 。 
<~C(L1; 22733+ 

+ 22+ 


3333) 
> ,x:[BE] 11 22 3388 


另外 ,需要 提 一 下 ，R 语言 中 的 注释 可 以 被 放 在 任何 地 方 ， 只 要 是 以 井 号 (#) 开始 ， 
到 行 末 结束 就 可 以 。 

5. 物件 〈 对 象 集 ) 

在 R 中 创建 的 单元 为 物件 ( 对象 集 )， 这 些 物件 可 以 是 变量 、 数 字数 组 、 字 符 串 、 函 数 ， 
以 及 从 这 些 物件 中 产生 的 更 多 结构 。 

objects() 可 用 来 显示 存储 在 R 中 的 对 象 集 名 字 。 


> objects () 
[1] 外 xm" 


以 上 代码 显示 R 目前 运行 环境 中 有 x 和 xm 两 个 变量 ， 可 以 使 用 rm 移 除 某 个 对 象 。 


> rm(xm) 
> objects () 
[3 nx" 


退出 R 程序 时 ， 可 以 以 .RData 的 方式 保存 这 些 对 象 集 ， 如 图 4-32 所 示 。 


2012-12-24 10 





图 4-32 保存 对 象 集 对 话 框 
当下 次 再 启动 R 时 ， 这 个 对 象 集会 被 还 原 。 
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R version 3.0.0 (2013-04-03) -- "Masked Marvel" 
Copyright (C) 2013 The R Foundation for Statistical Computing 
Platform: i386-w64-mingw32/i386 (32-bit) 


原来 保存 的 工作 空间 已 还 原 。 


艺 和 芝 
[1] 邓 22 3388 


4.2.2 向量 


1. 数据 型 向 量 及 其 运算 

最 简单 的 数据 结构 是 数字 型 向 量 ， 它 是 一 个 有 序 的 数字 集合 ( 这 里 的 序 不 是 指 按 数字 大 
小 排序 ， 是 指数 字 之 前 的 先后 顺序 都 确定 )， 关 于 这 个 序 ， 数 学 上 有 一 个 很 好 的 解释 ， 叫 作 
偏 序 关系 。 

偏 序 关系 又 称 半 序 关系 。 设 4 是 一 个 非 空 集 , P 是 4 上 的 一 个 关系 ，P 适 合 下 列 条 件 : 

(1) 对 任意 的 aE4,(a,a) EP; 

(2) 若 (a,b)EP 有 (b,a)EP, 则 a=b; 

(3) 若 (a,b)EP,(b,c)EP， 则 (a,c)eEP， 则 称 P 了 是 4 上 的 一 个 偏 序 关系 。 带 偏 序 关系 的 
集合 A 称 为 偏 序 集 或 半 序 集 。 

比如 说 (1,2 ) 和 (2,1 )， 它们 两 个 就 不 是 同 个 向 量 ， 因 为 这 两 个 集合 的 序 不 一 样 。 

向 量 的 使 用 方法 很 简单 ， 可 使 用 "c" 后 跟 括号 将 向 量 包 围 起 来 ， 即 c( ) 函数 。 如 : 

> y<-é(12,33,12,22) 

>y 

设 ] 投 33 1222 

"<-" 可 以 相当 于 “=”， 就 是 将 这 个 向 量 组 作为 y 这 个 对 象 的 值 ， 也 可 以 使 用 assign( 函数 。 


> assign ("x"yc (11,22; 15)) 
> x 
t1i 11 22, 15 


“->” 的 作用 与 "<-" 类 似 。 
> c(12,33,12,22)->z 


> 也 
[LI 12 33; 12 22 


对 向 量 操作 ， 一 般 是 对 向 量 的 每 个 元 素 进 行 操作 ， 比 如 : 
人 1 3 12 22 

> ZY2 

[1] 6.0 16.5 6.0 10 


向 量 也 可 以 成 为 c() 中 的 参数 ， 向 量 中 的 元 素 ， 将 合并 成 为 CO 函数 中 的 元 素 : 


> GN(33712, 66) ->x1 
> yl=c (x1,111yx1) 
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> yl 
[Ti 33 12 66 111 33 12 166 


再 来 看 看 数字 型 向 量 运算 。 向 量 之 间 的 运算 是 每 个 元 素 分 别 进行 的 ， 比 如 : 


人 浅 

[1] 11 22 3388 
> 2*x->y 

> 泛 


[LI 22 44 6776 

> xX+3*y=>2z 

> 

[1] 77 154 23716 


元 素 个 数 不 一 致 的 向 量 ， 元 素 个 数 较 少 的 向 量 将 循环 扩充 和 元 素 个 数 最 多 的 向 量 一 致 ， 
这 意味 着 元 素数 量 最 多 的 向 量 的 元 素 个 数 必须 是 元 素数 量 小 的 向 量 的 元 素 个 数 的 整数 倍 。 


> 2 
[1] 9 154 23716 


> Hh- (L2721; 32;60132756) 
> z/3+bb 
[1] 37.66667 T12533333 7937 .33333 85.66667 183.33333 7961.33333 


对 向 量 元 素 的 操作 ， 可 以 使 用 普通 的 +、-、*、/、^ 等 操作 符 ， 也 可 以 使 用 更 多 的 函 
数 ， 比 如 : log、sin、tan、max、mean、sum 等 ， 这 些 函 数 有 些 是 对 每 个 元 素 分 别 计算 ， 有 
些 是 对 所 有 元 素 一 起 计算 。 

> x 

[1] 让 22 3388 

> cos (x)#cos 三 角 函 数 

[1] 0.004425698 -0.999960826 0.206187272 

> sin(x)#sin 三 角 函 数 

[1] -0.999990207 -0.008851309 0.978512549 

> sum (x)# 求 和 

[1] 3421 

> mean (x) # 求 平均 值 

[1] 1140.333 


可 以 使 用 sort、length、sqrt 对 向 量 进行 排序 ， 求 长 度 ， 求 平方 根 。 
> c(4;8,9)->x 

> sqrt (x) 间 平方 根 

[1] 2.000000 2.828427 3.000000 

> length (x) # 长 度 

局】 驴 

> sort (x) ->y# 排 序 

之 - 汪 

[i] 4 次 9 12 


2. 复数 向 量 
复数 向 量 的 元 素 都 是 复数 。 复 数 的 表示 方法 是 : 实 部 + 虚 部 i。 下 面 的 代码 演示 了 复数 
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向 量 的 使 用 方法 。 
>c(2+1i;3-9i,4;6+11i) ->b 
>y 
已 ] 4 没 守 12 
> b+y->w# 复 数 运算 
> w 
[1] 6+1i 11=9i 13+0i 18+1i 


我 们 可 以 使 用 1:m-1 和 1:(m-1) 产生 规则 的 序列 。 


Se (2 
[LI 1 2 3 竟 § § 7 8 10 11 12 13 14 15 16, 17 18: 19 20 2 22 
SS CG(L S22) 


[1} 1 2 3 4 5 6 7 8 910 11 12 1314 15 .16 17 18 19 20 21 22 


冒号 的 优先 权 很 高 ， 看 下 面 这 个 示例 ， 它 产生 范围 在 3-30 之 内 的 公差 为 3 的 等 差 数 列 。 


> 'Gf3x 们 201) 
[3 6 9 12 15 18 21 24 2730 
> ELS: 0) 


"TL 3 站 9 12 15. Ll8 21 24 27 30 


seq 函数 是 生成 序列 的 最 好 工具 。 可 以 使 用 它 产生 符合 某 种 规则 的 序列 ，seq 函数 有 5 
个 参数 ， 前 4 个 参数 分 别 是 起 始 值 (参数 名 称 : from )、 终 止 值 (参数 名 称 : to )、 步 长 ( 参 
数 名 称 : by )、 长 度 即 元 素 个 数 ( 参数 名 称 : length.out )。 


> seql(1,5) 

[TT L2345 
> seql(1,5,2) 
f 和 人 下 3 与 


可 以 直接 指定 参数 名 称 ， 传 人 参数 。 


> Seq(Erom=1,to=15,by=2) 

EY 3 如 15 

> 

> seql(from=1,to=15,by=3) 

E 1 4 10 13 

> seql(lfrom=1,to=15,1length .out=3) 
Li 二 8 15 


第 五 个 参数 是 along.with， 使 用 along.with 参数 中 序列 的 长 度 作 为 要 产生 序列 的 长 度 。 
> seqlfrom=2,along.with=c (1:5)) 

[1] 23456 

> seql(lfrom=2,by=2,along.with=c (1,2,5,8)) 

Ii) 和 4 才 8 

> seql(lfrom=2,by=2,along.with=c (1,2,3,8)) 

[1] 2 4 6 8 


了 注意 


along.with 套数 中 的 序列 仅 取 其 长 度 ， 和 序列 的 内 容 无 关 。 
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rep 函数 对 序列 中 的 元 素 进行 重复 后 拼接 ， 拼 接 的 方式 是 : 使 用 times 参数 将 所 有 元 素 
作为 整体 拼接 ， 使 用 each 参数 将 元 素 分 别 进行 拼接 。 


> rep (x,2) 

[1] 12 32 98 12 32 98 

> rep (x,3) 

[1L] 12' 32 98 12 32 '98 12 32. 98 
> rep (x,times=2) 

[41] 12 32 98 12 32 98 

> > rep (x,each=2) 

[4] 12 1412 32 32 98 98 


3. 逻辑 型 向 量 

了 解 了 数字 型 向 量 ， 再 来 看 看 逻辑 型 向 量 。 该 向 量 的 元 素 由 逻辑 型 值 组 成 ， 逻 辑 型 的 值 
有 TRUE (可 缩写 成 T)、FALSE ( 可 缩写 成 F )、NA ( 即 无 效 ) 等 ,可 使 用 >、>=、==、!= 
等 逻辑 操作 符 ，and 操作 用 &&，or 操作 用 |， 逻辑 非 使 用 “!”。 


人 2733751) 一 > 
> X 
区 2 .385 8 
> x>20->y 
> Y - 
[1] FALSE TRUE TRUE 
> x>=12->y#x>12 作 为 产生 逻辑 向 量 的 依据 
> Y 
[1] TRUE TRUE TRUE 
> X>=12&x<30->Y 
> Y 
[1] TRUE FALSE FALSE 
> x>=12|x<30->y 
>y 
[1] TRUE TRUE TRUE 
>> ! (x>=12&x<30)->y 
>y 
[1] FALSE TRUE TRUE 


无 效 值 或 缺失 值 NA、NaN 主要 用 于 应 付 某 操作 没完 成 ， 结 果 未 知 的 情况 。 示 例如 下 : 
> c(1:4,NA,2:3) ->x 

> xX 

[43 人 深入 过 和 人 没 怠 

> is.na (x) 

[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE 


下 面 是 数字 计算 对 NAN 的 处 理 : 


> 0/0 

[1] NaN 

> 0/0->y 
> is.naly) 
[1] TRUE 
入 
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[1] NaN 


4. 字符 串 向 量 
字符 串 用 单 引号 或 双 引 号 包围 ， 示 例如 下 : 


> e(vqq", "bb") 一 >Z 
光世 
| 名 本 | "qq" "pp" 


可 在 字符 串 中 使 用 转 义 符 \: 
\n 新 行 

\r 回 车 

\t tab 

\b 退 格 

Na 鸣叫 

NA 全 

N1 重 

bho PT 


在 字符 串 向 量 的 运算 中 ，paste() 函数 接受 任意 数量 的 参数 ， 可 将 它们 依次 连接 到 字符 串 
向 量 的 元 素 中 ，sep 指定 连接 时 相隔 的 字符 ， 默 认为 单个 空格 。 


> paste(1:12) 
EL] 2 
> paste("A", 1:6, sep = "") 
[1] "Al™" "A2™ "A3" "A4" "A5" "R6" 
> paste("A", 1:6) 
[LY AR LE WA 2% WA SY MA QT A 5" "A 6 
> pasteé("A", 1:6, sep = "") 
[1] "RAR1" "A2"™ "A3" "A4™ "RAR5" "A6" 
> paste(c("A","B"), 1:10, sep="") 
[i] “AL wea2™ "M3 BAa™ RS TB SAT "BB" "AS™ wpB10™ 
> paste ("今天 是 "，date () ) 
[1] "今天 是 Sun Apr 21 14:18:38 2013" 
> 


5. 索引 向 量 
在 逻辑 值 型 索引 中 ， 索 引 向 量 的 元 素 为 逻辑 值 型 ， 逻 辑 值 为 TRUE 的 向 量 将 被 放 在 输 
出 结果 中 。 示 例如 下 : 


> 迹 

[丁克 由 22 3388 
> x>22->jg 

> jg 

[1] FALSE FALSE TRUE 
> x[jg]->y 

> 

[1] 3388 

> x[x<100] ->y 

YY 

以 ] 天 22 
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> 


在 正 整 数 型 索引 中 ， 索 引 向 量 是 正 整数 类 型 ， 用 于 指示 要 哪些 位 置 的 元 素 要 输出 到 结果 
示例 如 下 : 


> x[c(1,2,3,2,1)]# 以 向 量 作为 索引 
| 放权 | 11 22 3388 22 11 
> 这 

[1] 11 22 3388 

> | 

EL] 1 

区 这 3 2] 

[2] 1 22 

> x[2:3] 

[1] 22 3388 


对 于 负数 索引 ， 会 将 除开 索引 以 外 的 所 有 元 素 输出 到 结果 中 。 示 例如 下 : 


> c(12,22,88)->X 
> 

此 2 22 88 
>X 

[1] 12 22 88 

» XESS(LR2)] ->¥ 
等 区 

[1] 88 

> 站 [一 人 人 六] =>Y 
> 

[1] 22 88 


在 字符 串 索 引 中 ， 是 以 字符 串 来 标注 元 素 的 位 置 的 。 示 例如 下 : 


> c(23,26,27)->age 


> c(" 张 三 "," 李 四 ", " 王 五 ") ->names (age) 
> age[c(" 张 三 ") ]# 以 字符 串 作 为 索引 
张 三 

23 
> age[cl(" 张 三 "，" 王 五 ") ] ->mystudent 
> mystudent 
张 三 王 五 

23 27 


带 索引 方式 的 向 量 对 象 可 以 直接 作为 被 赋值 的 对 象 ， 所 有 在 索引 内 的 向 量 元 素 都 会 被 赋 
示例 如 下 : 


5 agelc(t "三 "EE 
了 张 三 亚 五 
26 28 
> age[c(" 张 三 "," 王 五 ")]<-age[c(" 张 三 "," 王 五 ")]+1 
> age[c(" 张 三 "," 王 五 ")] 
张 三 王 五 
27 29 
> age[c(" 张 三 "; "于 五 ") ]<-32 
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> age[lc(" 张 三 "， nm 王 五 ") ] 
张 三 斑斑 
32 3 


再 举 个 例子 : 给 所 有 小 于 100 的 元 素 均 加 上 20， 代 码 如 下 : 


洲 芒 

| 四国 | 1 22 3388 

> length (x) 

LiF 3 

> x[x<100] <-x[x<100]+20 
Ee 

[1] 831 42 3388 


4.2.3 ”对 象 集 属性 


1. 固有 属性 
对 象 集 的 固有 属性 有 mode 和 length 两 种 ， 相 关 示 例如 下 : 


沁 芒 

| 由 划 | 11 22 3388 
> mode (x) 

[1] "numeric" 


其 中 mode 可 理解 为 对 象 集 的 类 型 ， 主 要 有 numericl、complex、logical 、character 和 
Taw 等 类 型 。Mode 的 用 法 如 下 : 


> length (x) 

贡 J 台 

> c(il.0=-51i,20+51L1i)=>a 
> mode (a) 

[1] "complex" 


mode 属性 转化 可 完成 数据 类 型 的 转化 。 比 如 ， 使 用 as.character 转化 为 字符 型 等 。 示 例 
如 下 : 


» = 82 

>h 

[1 3 过 议和 六 9 0 41 2 

> as.character (h)# 转 化 为 字符 

LL BY. Wor Ww mor PO WO ME mT 
> C1.0-51,.20+514)y->a 

> mode (a) 

[1] “complex" 

> as.character (a)->c a 


之 加 名 
LI SLL 20+511Y 
2. 设置 对 象 属性 


可 使 用 attr 方法 进行 属性 的 自 定义 。 具 体 方法 为 : 使 用 attr(object, name) 格式 设置 对 象 
属性 。 示 例如 下 : 
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> 
[多 5 & 7 i@ DH0 11 12 
> attrl(h,"name") 
[1] "test" 
> attr(h,"name") 
[A] test” 
> h 

[,1] [1,2] [3] [,4] 
[1,] 5 7 9 I 
[2,] 6 8 10 12 
> attr(, "name") 
[1] “test" 


4.2.4 ”因子 和 有 序 因子 


因子 用 来 存储 类 别 变量 和 有 序 变量 ， 可 用 来 分 组 或 分 类 ， 因 子 表示 分 类 变量 ， 有 序 因子 
表示 有 序 变量 。 

在 RR 语言 中 使 用 factor() 函数 生成 因子 对 象 ， 语 法 是 factor(data, levels, labels, ...)， 其 中 
data 是 数据 ，levels 是 因子 水 平 向 量 ，labels 是 因子 的 标签 向 量 。 


> my_num<-c(11,22,34,71,14,68,21) 
> factor (my_num) ->nums# 生 成 my_num 分 组 向 量 


生成 因子 对 象 后 ， 输 入 对 象 名 称 ， 可 显示 简单 的 分 类 情况 。 


> nums 

[1] 11 22 .34 71 14 :68 .21 
Levels: 11 14 21 22 34 68 71 
> 


Levels 函数 用 于 生成 因子 向 量 中 的 水 平 ( 去除 重复 元 素 后 的 元 素 集 )。 示 例如 下 : 


> my_num<-c(11,22,34,71,14,68,21,22,11,34) 
> factor (my_num) ->nums 
> nums 
[1] 11 22 34 71 14 68 21 22 11 34 
Levels: 11 14 21 22 34 68 71 
> levels (nums) 
bY hiln wa "OL wa2n IMT MGB FHL 


还 可 使 用 ordered 函数 生成 有 序 因 子 。 示 例如 下 : 


> ordered (nums) 

Li Ll .22 34 71 44 68 24 22 二 34 
Levels: 11 < 14< 21< 22<34<68<71 
大 ge <- Tl25; 二 25 To 12; 这 9) 
> ordered(age, levels = c(25,12,15)) 

[42]】 次 5 机 5 42 25 
Levels: 25 < 12 < 15 


cut() 函数 将 数据 转换 成 因子 或 有 序 因子 ， 并 进行 分 组 。 下 面 对 一 组 学 生成 绩 进 行 分 组 。 


> SCore<-c( 88, 85, 75, 97, 92, 77, 74, 70, 63, 97) 
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> cut (score，breaks = 3)# 将 成 绩 分 为 3 组 
[] (85.7597] (74.385.7] (74.37;85.7] (85.77 97] (85.7,97] (3D 7] 
BE] 6372 3] (63,74.3] (63,74.3] (85s.77;97] 

Levels: (63,74.3] (74.3,85.7] (85.7,97] 

> cut (score，breaks = 2)# 将 成 绩 分 为 2 组 
[1] (80,97] (80,97] (63,80] (80,97] (80,97] (63,80] (63,80] (63,80] (63,80] 
[10] (80,97] 

Levels: (63,80] (80,97] 

> 


4.2.5 ”循环 语句 


1. for 循环 
R 语言 的 for 循环 与 Python 类 似 ， 都 是 通过 在 对 象 中 进行 迭代 实现 循环 ,但 R 语言 中 
不 能 在 该 循环 中 直接 设置 起 始 值 、 终 止 值 与 步 长 。 示 例如 下 : 


zZ<~C{() 

x<-(1:10) 

y<- (11:20) 

for (i in l:length (x)){ 

z[i]=x[i]^2+y[i]^2 

} 

Z 

[1] 122 148 178 212 250 292 338 388 442 500 


2. while 循环 
while 语句 每 次 会 检查 循环 条 件 ， 如 果 条 件 不 再 满足 ， 则 终止 循环 。 示 例如 下 : 


> x<-c(l1:10) 

i=1 

while (x[i]^2<10) 

{ 

i=i+1 

x[i]=x[i]^2 

} 

x 

[1 法 引 和 5 和 7 8 9 10 


V++YV VYVvYVYV 


V++++VvVyv 


4.2.6 ”条 件 语句 


if...else... 是 RR 语 言 的 条 件 语句 。 该 语句 通过 检查 执行 条 件 来 确定 是 否 继续 往 下 执行 ， 
如 果 条 件 满足 ， 则 执行 让 后 面 的 对 应 语句 ， 和 否则 执行 else 后 面 的 对 应 语句 。 示 例如 下 : 
ZzZ<=C() 
x<- (1:10) 
y<- (11:20) 
for (i in 1l:length (x)){ 
if (wli]*3>Yyli] 人 ^2)) 
名 [B 主 ]=x[ 和 J] 和 3 


中 证 VYVV 
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[1] 121 144 169 196 225 256 343 512 729 1000 


4.3” 民 语言 科学 计算 


4.3 


.1 分 类 (组 ) 统计 


R 语言 分 类 统计 主要 包括 数据 分 类 整理 、 统 计 函 数 定义 、 数 据 分 类 统计 3 个 过 程 。 下 面 


以 对 水 果 的 价格 进行 分 类 统计 为 例 说 明 。 


1. 准备 分 组 数据 

> fruit_class<-c(" 苹 果 "，" 梨 子 "v" 橘 子 "， "草莓 "苹果 "vpn 橘子 "yn 橘子 "， "草莓 "，" 桶 子 "，" 草 医 ") 
> TGS<=E (D2edr lr i Id 3 212 87 4 2 58) 

2. 平均 价格 统计 

通过 在 tapply 函数 中 指定 mean 函数 为 其 参数 ， 可 实现 分 组 求 平均 值 。 计 算 结果 分 2 行 ， 
行为 组 名 ,第 2 行为 tapply 函数 最 后 一 个 函数 参数 的 运算 结果 。 示 例如 下 : 

> tapply (fruit prices,fruit class,mean) 


草莓 橘子 梨子 苹果 
5.366667 2.600000 2.500000 3.850000 


3. 最 低 价格 统计 
通过 在 tapply 函数 中 指定 min 函数 为 其 参数 ， 可 实现 分 组 求 平均 值 。 示 例如 下 : 


> tapply (fruit prices,fruit class,min) 


草莓 橘子 梨子 苹果 
4.8 1.5 2.5 3.5 
4. 标准 差 统 计 
通过 在 tapply 函数 中 指定 sd 函数 为 其 参数 ， 可 实现 分 组 求 标准 差 。 示 例如 下 : 


> tapply (fruit prices,fruit class,sd) 


草莓 橘子 梨子 苹果 
0.5131601 0.7527727 NA 0.4949747 
5. 标准 误 


标准 误 即 样本 均 数 的 标准 差 ， 是 描述 均 数 抽样 分 布 的 离散 程度 及 衡量 均 数 抽样 误差 大 小 


的 太 度 ， 反 映 的 是 样本 均 数 之 间 的 变异 。 


的 ， 


但 是 ， 请 注意 ， 标 准 误 并 不 是 标准 差 ， 而 是 样本 均值 的 标准 差 ， 是 用 来 衡量 抽样 误差 
其 计算 公式 为 : 
S 


3 万 


wwaibbt.com DODODDODODOD 


第 4 章 ”计算 平台 应 用 实例 e 91 


其 中 ，5S 为 样本 标准 差 。 标 准 误 越 小 ， 表 明 样 本 统计 量 与 总 体 参数 的 值 越 接近 ， 样 本 对 
总 体 越 有 代表 性 ， 用 样本 统计 量 推断 总 体 参数 的 可 靠 程度 越 大 。 
可 通过 在 tapply 函数 中 指定 自 定义 函数 stderr 为 其 参数 ， 来 实现 分 组 求 标准 误 。 示 例如 下 : 


> stderr <- function(x) sqrt(var(x)/length (x) )# 自 定义 stderr 函 数 
> tapply (fruit prices,fruit class,stderr) 

草莓 橘子 梨子 苹果 
0.2962731 0.3763863 NA 0.3500000 


4.3.2 ”数组 与 矩阵 基础 

R 提供 了 简单 的 工具 以 处 理 数 组 和 和 抢 阵 。 

1. 数组 与 矩阵 的 维 数 

数组 与 矩阵 的 维 数 是 其 行 向 量 (或 列 向 量 ) 生成 的 向 量 空间 的 维 数 ， 可 用 维 数 向 量 表 
示 ， 格 式 为 ( 行 数 x 列 数 )， 元 素 都 非 负 。 通 常 使 用 dim 函数 来 定义 数组 维度 。 示 例如 下 : 


> dim(my_num) <-c(2, 5)### 指 定数 组 维度 


> my_num 
[,1] [,2] [3] [4] [5] 
[1,] LT 小 14 21 型 
[2,] 22 71 68 22 34 
> dim(my_num)<-c(10) 
> my_num 
[1] 11 22 34 71 14 68 21 22 11 34 
2. 切片 


切片 是 操作 多 维 数据 ( 矩阵、 数组 等 ) 的 主要 手段 ， 它 以 索引 为 参数 获取 数组 或 矩阵 的 
一 部 分 。 比 如 : 想 要 得 到 多 维 数组 的 一 个 切片 ， 则 以 索引 为 下 标 进 行 访问 ， 取 得 某 块 数 组 。 
使 用 [索引 ] 格式 的 参数 对 数组 和 和 矩阵 完成 切片 操作 。 

索引 的 形式 主要 有 以 下 几 种 : 

(1 ) [index1，index2，...，indexn]。index1、index2 等 分 别 标明 了 元 素 在 相应 维 数 的 索 
引 ， 将 索引 组 合成 完整 的 位 置 ， 标 注 需要 取出 的 元 素 ， 进 行 切片 ， 形 成 数组 块 。 比 如 : 数组 
a 的 大 小 为 3x 5，a[2,4] 表示 第 2 行 第 4 列 的 元 素 。 

(2 ) [c(index1，index2，...，indexn)]。index1、index2 等 n 个 整数 标注 了 元 素 的 位 置 ， 
将 这 些 标 注 的 元 素 取 出 后 ， 组 成 数组 块 。 这 些 元 素 的 位 置 以 列 为 顺序 排列 ， 比 如 ， 数 组 a 
的 大 小 为 3x2 (3 行 2 列 )， 切 片 操作 a[c(1,2,3,4,5,6)] 依次 取出 以 下 元 素 : a[1,1]、a[2,1]， 
a[3,1]、 a[1,2]、 a[2,2], a[3,2]。 

切片 操作 示例 如 下 : 

>h 

Gl GG {tid 
[1,] 12 15 982 


[2,] 32 67 321 
> c(h[1,2],h[2,3])### 获 取 第 1 行 第 2 列 数据 (为 15) 、 第 2 行 第 3 列 的 数据 (为 321 ) 
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[1] 15 321 

> 下 [2,] 

Hj 3 机 3 王 

> h[c(1,2,3) ]### 逐 列 获取 第 1、2、3 个 数据 
[1] 12 32 15 

> h[6]### 逐 列 获取 第 6 个 数据 

[1j 引 2 

> h[4] 

[1] 67 


3. 索引 向 量 
数组 可 作为 索引 使 用 ， 且 数组 也 是 向 量 ， 因 此 作为 索引 的 数组 可 称 为 索引 向 量 。 下 面 的 
代码 演示 了 向 量 c(1:3,5:4,3:5) 作为 索引 的 情况 。 
(1 ) 创建 数组 x 和 i，x 是 被 切片 的 数组 ，i 是 索引 向 量 。 
> array (10:20,dim=c (2,5))->x 
[js1] [2] [3] [,4] [,5] 
[x] 10 二 去 14 16 18 


bh2s] 1 13 5 .7 19 
> array(c(l1:3,5:4,3:5),dim=c (2,3))->i 


光宇 y 

[1:1] [,2] [,3] 
[1,] 1 3 4 
[2,] 2 5 3 


(2 ) 以 i 为 索引 向 量 提取 数组 块 ， 索 引 向 量 每 个 元 素 代 表 切 片 的 位 置 ， 将 这 些 位 置 指向 
的 元 素 提 取出 来 ， 形 成 数组 块 ( 数组 切片 )。 示 例如 下 : 


图 | 
bul TO. 11 2 14 13 12 


(3 ) 通过 索引 对 数组 某 个 元 素 赋值 。 示 例如 下 : 
> x[i]<-111 
> x 
[11] [i2] [3] [4] [5] 
[RT ll Tid dL Le ~ 1 
[22] 二 多 39 


4. array 函数 

array 承 数 根据 维 数 参 数 生成 多 维 数组 ， 它 的 参数 主要 有 两 个 ， 第 一 个 是 需要 形成 数组 
元 素 的 数据 ， 第 二 个 是 dim 参数 提示 维度 。 下 面 的 代码 演示 了 array 函数 创建 数组 的 方法 ， 
并 通过 dim 函数 获取 数组 的 大 小 。 


> c(l1:20)->h 
> mya<-array (h, dim=c (4, 5)) 


> mya 

[,1] [2] [3] [,4] [5] 
[1,] 1 5 9 13 27 
[2,] 2 6 10 14 18 
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[3,] 3 3 1 1s 19 
[4,] 4 8 过 16 20 
> mydim<-c (2,10) 
> mya<-array (h, dim=c (2,10)) 
> mya 
[,1] [,2] [1,3] [,4] [,5] [6] [7] [18] [,9] [,10] 
[3] 1 3 5 入 9 11 18 15 i7 19 
[7 4 6 8 10 1 14 16 18 20 
> 
> dim(mya) 
[1] 兽 


array 函数 的 第 一 个 参数 既 可 以 是 向 量 也 可 以 是 单个 值 ， 如 下 所 示 : 


> mya<-array (l, dim=c (2,10)) 


> mya 

[1] [1,2] [,3] [v4] [,5] [6] [7] [8] [,9] [10] 
[1,] 1 1 1 T bl 和 1 1 1 lL 
[2，] 2 1 1 1 1 A 1 1 1 


5. 数组 转换 为 向 量 
as.vector 函数 可 将 数组 转换 为 向 量 。 示 例如 下 : 


> x<-array (c(1:10),dim=c (2,5)) 


> x 

[21)] [2] [73) Td4] [sy5] 
[1,] a 3 5 9 
[2,] 2 4 6 8 10 


> as.vector (x) 
[好 让 全 8 二 


6. matrix 矩阵 
使 用 matrix 函数 可 创建 矩阵 (从 数学 角度 定义 的 矩阵 )， 主 要 参数 为 : data 表示 构造 所 
需 数据 ，nrow 为 行 数 ，ncol 为 列 数 ，byrow 表示 是 否 按 行 顺序 分 配 元 素 (默认 为 FALSE， 
不 按 )。 
> matrizg(G (ls10) ,25 TRUE) 
[1] ([,2] [3] [4] [5] 
[1,] 1 2 3 4 5 
[2;] 6 7 8 9 10 
> matrix(c(1:10),2,5) 
[,1] [,2] [3] [,4] [,5] 


[1,] 1 3 5 汉 9 
[2,] 2 4 6 8 10 
7. 对 角 和 矩阵 


对 角 和 矩阵 是 一 个 除 主 对 角 线 上 的 元 素 之 外 皆 为 0 的 矩阵 ， 对 角 线 上 的 元 素 可 以 为 0 或 
其 他 值 。 通 过 diag 函数 可 生成 和 分 析 对 角 和 矩阵， 如 果 参 数 为 一 维 数组 ， 则 将 参数 视 为 对 角 
线 元 素 ， 并 生成 对 角 和 矩阵 ; 如果 参 数 为 一 维 以 上 数组 ， 则 将 参数 视 为 对 角 和 矩阵 ， 对 它 进行 分 
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析 ， 可 提取 对 角 线 元 素 。 相 关 示 例如 下 : 


> 
[打针 人 党 村 汪 从 了 7 了 交 
和 


> diag (a) ### 生 成 对 角 和 矩阵 


[11] [v2] [3] [v4] [1,5] [v6] [7] [,8] 
[1,] 二 0 0 0 0 0 0 0 
[2,] 0 2 0 0 0 0 0 0 
[3,] 0 0 3 0 0 0 0 0 
[4,] 0 0 0 4 0 0 0 0 
tS.1 0 0 0 0 5 0 0 0 
[6,] 0 0 0 0 0 6 0 0 
bie 0 0 0 0 0 0 7 0 
[8,] 0 0 0 0 0 0 0 8 
> a<-array(c(l1:16),dim=c (4,4)) 


> diag (a) ### 提 取 对 角 线 元 素 
[1] 4 所 1 6 


>a 

Lal] Te2 li3] Eid) 
Fl i S 9 13 
| 2 6 10 14 
[3,] 3; 7 11 15 
[4,] 4 8 12 16 


4.3.3 ”数组 运算 


1. 四 则 运算 
数组 四 则 运算 的 规律 是 : 对 应 位 置 的 元 素 分 别 计算 ， 而 不 是 依据 矩阵 的 数学 运算 法 则 。 


运算 符 为 “+”( 加 )“-”( 减 )“*”( 乘 ) 等 ,运算 优先 级 与 算术 四 则 运算 相同 ， 先 乘 后 加 减 。 
示例 如 下 : 


> mya 

[,1] [v2] [3] [4] [15] [6] [7] [,8] [,9] [10] 
[1,] 1 < 5 了 9 11 313 15 17 19 
[2,] 2 4 6 8 10 12 14 16 18 20 
> myb 

[1] [2] [3] [4] [5] [,6] [7] [8] [,9] [,10] 
[1,] 2 2 2 2 2 2 2 2 2 
[2,] 2 2 2 2 2 2 2 2 2 2 
> mya+myb 


[1] [2] [3] [4] [5] [6] [7] [8] [,9] [,10] 
| 3 5 这 9 1 L3 15 19 19 24 
[2w] 4 6 8 10 12 14 16 18 20 22 
> mya*myb 

[rr1l] [2] [3] [4] [5] [1.6] [7] [8] [9] [10] 
[7 2 6 10 14 18 22 26 30 34 38 
[27] 4 8 12 16 20 24 28 32 36 40 
> 3*mya*myb 
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[11] [1.2] [,3] [1,4] [,5] [16] [17] [8] [,9] [,10] 
[1,] 6 18 30 42 54 66 78 90' 202 114 
[2,] 12 24 36 48 60 22 84 96 108 120 
> 


> myaxmyb+mya# 先 乘 后 加 


[9 0] 
[1 3 9 15 2 27 33 39 45 $1 -| 
| | 6 12 18 24 30 36 42 48 54 60 
> 
2. 向 量 连 接 


向 量 连接 指 的 是 将 两 个 向 量 通 过 某 种 规律 连接 成 一 个 数组 。R 语言 的 cbind 和 rbind 函 


数 可 进行 向 量 连接 ， 其 中 cbind 函数 将 向 量 的 行 转变 为 列 后 再 连接 ，rbind 函数 将 向 量 的 列 
转变 为 行 后 再 连接 。 示 例如 下 : 


> x2<~c(101:;105) 
> x1<=c(L: 10) 
> cbind (xl1,x2) 


> 东 2 
Ly 二 BL 
[Zz 多 二 02 
[av 3 103 
[4,] 4 104 
[5 让 “已 二 0s 
[ev,] ‘6 101 
L717 “702 
【87]! 8 103 
[97 开 ‘3104 


ty 二 0 05 
> rbind(xl x2) 

[v1] [,2] [3] [4] [5] [6] [7] [8] [9] [,10] 
xl1 4 2 3 4 S 6 7 8 9 10 
x2 101 102 103 104 105 101 102 103 104 105 


4.3.4 矩阵 运算 


1. 矩阵 连接 
R 语言 的 cbind 函数 完成 矩阵 的 横向 连接 ，rbind 函数 完成 矩阵 的 纵向 连接 。 下 面 是 关于 


和 矩阵 的 连接 操作 示例 。 


> x3<-matrix(c(1:10),2;,5) 
> x4<-matrix(c(101:105),2,5) 


> X3 

Ly1] [2] [3 [4 [5] 
[1,] 1 3 5 7 9 
[2,] 2 4 6 8 10 
> X4 

{oY Fx2] LB Lal LS] 
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[Lz] 10 03 105 102 104 
lk2y] 102 04 10 103 工 05 
> cbind (x3,x4) 
[1] [2] [fr3] [74] [js5)] [6] [7] [78] [9] [10] 
Eix] 1 3 5 时 y Lo 103 105 102 104 
[2r] 2 4 6 8 LO 102 404 301i 103 105 
> rbind(x3,x4) 
[js1] [2] [1,3] [,4] [,5] 
Us] 4 3 5 7 9 
| 2 4 6 8 10 
[3,] 101 103 105 102 104 
[4,] 102 104 101 103 105 


2. 矩阵 转 置 

线性 代数 将 矩阵 4 的 转 置 ( 记 做 4 ) 定义 为 : 

把 4 的 横行 写 为 4 的 纵 列 ; 

把 4 的 纵 列 写 为 4" 的 横行 。 

根据 上 述 计算 法 则 ， 关 xz 和 矩阵 4 的 转 置 生成 n xm 和 矩阵 47。 
4 六 4 1<i<n, 1<j<m。 

R 语言 的 t 函数 可 完成 矩阵 转 置 计算 。 


> array (h, dim=c (2,5))->mya 


> mya 

[ol] [2 C3] [74)] [75] 
[1,] 4 号 3 7 9 
2] 2 4 6 8 10 
> 七 (mya) ### 算 阵 转 置 

[v1] [72] 
[1,] 1 2 
[2,] 3 4 
[3 5 6 
[4,] 7 8 
[5,] 9 10 


相对 t 函数 而 言 ， 用 aperm 函数 进行 矩阵 转 置 更 灵活 。aperm 有 两 个 常用 的 参数 ， 第 一 
个 参数 是 需要 转 置 的 矩阵 ， 第 二 个 参数 perm 指示 新 矩阵 相对 于 第 一 个 参数 失 阵 的 维度 下 标 。 
需要 特别 注意 的 是 ， 第 二 个 参数 perm 是 维度 下 标 。 比 如 ， 将 行 转换 为 列 ， 将 列 转换 为 行 ， 
将 行列 次 序 更 换 ， 将 第 一 维 的 元 素 与 第 二 维 的 元 素 互 换 ， 则 将 perm 设 为 c(2,1)。 下 面 的 代 
码 演示 了 aperm 函数 的 使 用 方法 。 

> array (h, dim=c (2,5))->mya 

> mya 

[1] [2] [3] [,4] [,5] 
[1,] p 3 5 7 9 


[2,] 2 4 6 8 10 
> 


> aperm (mya, perm=c (2,1) ) ->myb### 以 c (2,1) 为 维度 下 标 进 行 转 置 
> myb 
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] 
[1,] 1 
[2,] 3 
[3,] 5 6 
[4,] 7 
[5,] 9 
> 


> array (mya, c (2,2,5))->myal 


> myal 
(Ld LA 1 

[1,1] [,2] 
[1,] 1 
[2,] 4 
下 4 党 

[,1] [2] 
[1,] 7 
[2,] 6 
了 [4 3 

[1,1] [,2] 
[1,] 9 1 


[11] [,2] 
[1,] 4 9 
[2,] 8 10 
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> aperm (myal,perm=c (2,1,3) ) ->mybl1### 以 c(2,1,3) 为 维度 下 标 进行 转 置 


> mybl 
[4 天 1 

[,1] [2] 
[1,] 1 


四 [4 2 

[,1] [,2] 
[1,] 5 6 
[2,] 7 
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下 严 3 
[,1] [,2] 
[1， 9 10 
2 了 2 
7 nm4 


[,1] [,2] 
[Lx] 7 8 
[2 1 9 10 
> aperm(myal,perm=c (1,3,2))->mybl 


> mybl 
LA LA 4 
[11] [12] [1,3] [,4] [,5] 
7 L 5 9 7 
7 2 6 10 4 8 
下 La 2 
[71] Ti2] Lz3] [74] Cr 
[1,] 3 7 5 9 
[2,] 4 8 2 6 10 
> 
3. 矩阵 乘积 


若 4 为 mxn 和 矩阵 ，B 为 nxr 和 矩阵 ， 则 它们 的 乘积 48B (有 时 记 做 4*B) 会 是 一 个 mxr 
的 矩阵 ， 前 提 是 m 与 n 必须 相同 ， 和 矩阵 乘积 使 用 %*% 操作 符 进行 计算 。 示 例如 下 : 
>a 
ta Ea tdi tr 5 
[1,] 1 3 区 7 9 
[2,] 2 4 6 8 10 


> 区 

[,1] [,2] 
ff 1 6 
| 2 7 
[ES 3 8 
[4,] 四 9 


wwaibbt.com DOOOODODD 


L3%.] 3 10 
> a %*%% b 
[1,1] [,2] 


[1,] 95 之 20 
[27] 110 260 


4. 内 积 运 算 
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(1) 向 量 外 积 。 向 量 的 外 积 是 和 矩阵 的 克 罗 内 克 积 的 特殊 情况 。 给 定 mx1 列 向 量 w 和 


向 量 外 积 w ®v 的 计算 定义 为 : 
b, 


b, 


O [a a a;|= aib, 
1 


u OO v=A=uv 


aib 
aib, 


aibs 


1xn 行 向 量 v， 它们 的 外 积 u @ v 被 定义 为 m xn 和 矩阵 4。 


asb 
asb, 
asb; 
asbs 


asb 
asb, 
asb; 
asbs 


下 面 的 代码 演示 了 a 和 少数 组 作为 向 量 的 外 积 运算 和 普通 乘法 运算 。 


> b<-array(c(1:4)) 
> a<-array (c(5:6)) 
> b%o%a### 外 积 

[v1] [,2] 
ft 5 6 
[2;] 10 12 
[3,] 5 18 
[4,] 20 24 
> b 
[ 工 ] 工 冯 34 
> 
[414] 和 各 
> b<-array(c(1:4)) 
> a<-array (c (5:8)) 
> axDb### 普 通 乘 法 
[3T 5 了 2 L332 
» 抱 


[3 已 了 交 
> Ba 
[人 了 8 
> agogb 

[1] [,2] [3] 
| 5 10 15 
| 6 12 18 
[| [4 14 24 
[4,] 8 16 24 
> 


[1,4] 


20 
24 
28 
32 


此 外 ， 还 可 以 使 用 Outer(a,b,“*”) 替代 %o% 运算 符 进行 外 积 运算 。 
(2) 向 量 内 积 。 向 量 内 积 以 实数 R 上 定义 的 两 个 向 量 为 运算 对 象 ， 返 回 一 个 实数 标量 
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值 ， 


属于 二 元 运算 ， 它 是 欧 几 里 得 空间 的 标准 内 积 。 
两 个 向 量 a= [a CQ2 ", a,] 和 b= [bi, bss b,] 的 内 积 定义 为 : 


a* = 六 aib=aibit+asb,t+*…*+a,b, 
=] 


R 语言 通过 crossprod 函数 完成 向 量 内 积 计算 。 示 例如 下 : 
> a<-cl(1:3) 
> b<-c(4:6) 
> crossprod (ab) 
[,1] 
| 32 
> a<-c(1:3) 


(3 ) 矩阵 内 积 。 和 矩阵 内 积 的 计算 方式 相当 于 第 一 个 参数 的 转 置 乘 以 第 二 个 参数 ， 就 是 前 


面 提 到 的 矩阵 乘积 。 除 了 使 用 %*% 操作 符 外 ， 还 可 以 使 用 crossprod 函数 完成 矩阵 内 积 计 


算 。 


示例 如 下 : 


> b<-array (c (4:6),dim=c (1,3)) 
> a<-array (c (1:3),dim=c (1,3)) 
>a 
[1] .[,2] [,3] 
Ld] 1 2 3 
苑 面 
[zi] Li2] [3] 
[Bp] 4 5 6 
> crossprod (a, 了 b) ###a 与 b 完 成 矩阵 内 积 计算 
[rl1] {[,2] [,3] 
El] 4 5 6 


taal 8 6G ‘12 

[3,] 12 15 18 

> 七 (a) %*%% b###a 的 转 置 与 b 完 成 矩阵 内 积 计算 
[loll li2] TS] 

[1,] 4 5 6 

[2,] 8 10 12 

[sr ‘1i2 15 18 

5. 求解 线性 方程 组 


一 般 通 过 solve 函数 来 求解 a %*% x =b 中 的 x 向 量 值 ， 求 解 线性 方程 组 仅 使 用 solve 函 


数 的 前 两 个 参数 ， 第 一 个 a 为 系数 矩阵 ， 第 二 个 b 为 常数 项 ， 当 b 缺 失 时 ， 黑 认为 单位 矩阵 。 


示例 如 下 : 
> b 
Lz E] 
[Es 8 
[2，] 9 
> a 
[1 br21 
Esy 1 3 
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E22 2 4 
> solve (a,b) 


[,1] 
[ly] -2.5 
| 区 | 时 :与 
6. 矩阵 求 逆 
通过 solve 函数 可 进行 矩阵 求 道 计算 ， 只 指定 1 个 参数 ( 待 求 逆 的 矩阵 ) 即 可 。 示 例 
如 下 : 
E11 [i 
[ 1 3 
[ 2 4 


> solve(a) 


[1,1] [v2] 
[1 ] = 5 
[271 二 一 0 .5 


> 


7. 矩阵 的 特征 值 求解 

(1 ) 特征 值 概念 。4 是 4 的 特征 值 等 价 于 线性 系统 (4-41) v= 0( 其 中 7 是 单位 矩阵 ) 
有 非 零 解 v (一 个 特征 向 量 )， 特 征 值 存在 等 价 于 下 面 行列 式 成 立 : 

detl(4-47)=0 

函数 ps(4)=det(4-4D) 是 一 个 关于 1 的 多 项 式 ， 称 为 4 的 特征 多 项 式 。 和 矩阵 的 特征 值 也 就 
是 其 特征 多 项 式 的 零点 。 

求 一 个 矩阵 4 的 特征 值 可 以 通过 求解 方程 p,(4)=0 来 得 到 。 

(2 ) R 语言 求解 特征 值 。 利 用 了 及 语言 的 eigen 函数 可 求解 特征 值 ， 调 用 格式 如 下 : 

eigen(x, symmetric, only.values = FALSE) 

其 中 ，x 为 需要 求 特征 值 的 矩阵 ; symmetric 是 逻辑 型 ， 表 示 是 否 为 对 称 矩 阵 ， 对 称 甜 
阵 是 一 个 方形 矩阵 ， 其 转 置 矩阵 和 自身 相等 ， 即 : 4=4"， 对 称 和 矩阵 4=(ay) 从 右上 至 左下 方 
向 的 元 素 以 主 对 角 线 ( 左上 至 右 下 ) 为 轴 对 称 ， 即 : aj=aj;。only.values 如 果 为 TRUE， 则 只 
返回 特征 值 ， 否 则 返回 特征 值 和 特征 向 量 。 

下 面 的 代码 演示 了 eigen 函数 计算 特征 值 的 方法 。 


> a<-array (c(1:16),dim=c (4,4)) 

> eigen (a) ### 计 算 a 的 特征 值 

$values 

[1] 3.620937e+01 -2.209373e+00 1.599839e-15 7.166935e-16 


$vectors 

[,1] [1,2] [1,3] [1,4] 
[1,] 0.4140028 0.82289268 -0.5477226 0.1125155 
[2,] 0.4688206 0.42193991 0.7302967 0.2495210 
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[3,] 0.5236384 0.02098714 0.1825742 -0.8365883 
[4,] 0.5784562 -0.37996563 -0.3651484 0.4745519 


> 

> eigenl(a,only.values=FALSE) 
$values 

[&] 5:3722813 =0.3722813 


$vectors 

[11] » Ez2 
[1，] =0.5657675 =0.9093767 
[2,] -0.8245648 0.4159736 


8. 求解 矩阵 行列 式 
行列 式 是 线性 代数 中 的 一 个 概念 ， 将 一 个 nxn 的 矩阵 4 映射 到 一 个 标量 ， 记 作 dei(4) 
或 |4|。 行列 式 可 看 作 是 有 向 面积 的 概念 在 一 般 的 欧 几 里 得 空间 中 的 推广 。 
比如 ， 假 设 矩 阵 4 定义 为 : 
4 b 
A=lda ef 
ghi 


a be 
Mld ef 
ghi 


R 语言 的 det 函数 可 求解 矩阵 对 应 的 行列 式 值 ， 即 : 已 知 矩阵 4， 求解 |4|。 示 例如 下 : 


> a<-array (c(1:4),dim=c (2,2)) 
> det (x) 

[1] -2 

> 


9. 奇异 分 解 

奇异 值 分 解 是 线性 代数 中 一 种 重要 的 矩阵 分 解 ， 在 信号 处 理 、 统 计 学 等 领域 有 重要 应 
用 。 假设 M 是 一 个 mxn 阶 矩 阵 ， 其 中 的 元 素 全 部 属于 域 K( 实数 域 或 复数 域 )。 设 存在 一 
个 分 解 使 得 : 


则 和 矩阵 4 的 行列 式 |4| 可 定义 为 : 


M=UYV* 
其 中 U 是 mxm 阶 西 和 矩阵; 是 半 正 定 mxn 阶 对 角 和 矩阵 ; V* ( 即 的 共 思 e 转 置 ) 是 
nxn 阶 西 矩 阵 。 
这 种 分 解 称 作 M 的 奇异 值 分 解 ，z 对 角 线 上 的 元 素 乙 ， 即 为 M 的 奇异 值 。 
使 用 RR 语言 的 svd 函数 可 完成 奇异 分 解 。 示 例如 下 : 


> array (c(1:16),dim=c (4,4))->a 
>a 
[edl [2] Lx3] [4) 
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[1,] 
[2,] 
[3,] 
[4,] 


WODPp 


5 
6 
7 


4 8 


9 
10 
11 
12 


> svd (a) ### 奇 异 分 解 


$d 
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13 
14 
5 
16 


[1] 3.862266e+01 2.071323e+00 1.291897e-15 6.318048e-16 


$u 


[1,] 
[2,] 


[1,1] 


.4284124 
.4743725 
.5203326 
.5662928 


[11] 


.1347221 
.3407577 
.5467933 
.7528288 


OO 


口 


1 
© 


[1,2] [,3] [1,4] 


.7186535 0.5462756 -0.0397869 
.2738078 -0.6987120 0.4602190 
.1710379 -0.2414027 -0.8010772 
.6158835 0.3938391 0.3806452 


[1,2] [3] [4] 


.82574206 -0.4654637 -0.2886928 
.42881720 0.4054394 0.7318599 
.03189234 0.5855124 -0.5976414 
.36503251 -0.5254881 0.1544743 


4.4 _R 语言 计 算 实 例 


4.4.1 


学 生 数 据 集 读 写 


下 面 演示 及 语言 对 学 生 数据 集 的 操作 。R 语言 可 以 使 用 list (列表 ) 组 件 创建 与 读 写 学 
生 数 据 ， 该 组 件 通 常用 来 容纳 一 个 数据 集 ， 其 中 包含 不 同 的 数据 类 型 。 

(1 ) 创建 学 生 数据 集 ( 创建 列表 的 语法 是 : list (字段 1= 组 件 1, 字段 2 = 组 件 2, … ) )， 
学 生 数 据 集 由 3 个 不 同类 型 的 数据 组 成 : name ( 姓名 ， 类 型 为 字符 型 )、class ( 班级 ， 类 型 
为 字符 型 )、ages ( 年龄 ， 类 型 为 数值 型 )。 


> list(name="students",class="101",stdt.ages=c (22,25,20),stdt.name=c ("zhangsang" 


"lisi", "wangwu 


"))->mystudents 


(2 ) 读 取 列 表 。 下 面 的 代码 读 取 刚 才 创建 的 学 生 数据 集 : 


> mystudents 


$name 


[1] "students" 


$class 
[1] "101" 


$stdt.ages 
[1] 22 25 20 


$stdt.name 


[1] "zhangsang" "lisi" "wangwu" 


(3 ) 获取 学 生 数 据 集 的 字段 总 数 ( 通过 length 返回 list 组 件 的 数量 )。 
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> length (mystudents) 
[1] 4 
(4 ) 查看 数据 集中 所 有 学 生 的 姓名 和 年 龄 (通过 “列表 变量 名 $ 字 段 名 ”提取 组 件 内 容 )。 


> c(mystudents$stdt.name,mystudents$stdt.ages) 
[1] "zhangsang" "lisi" "wangwu" mn22" wn25" nm20" 


此 外 ，R 语言 还 提供 了 一 个 很 不 错 的 list 组 件 data.frame， 它 内 部 可 拥有 很 多 组 件 。 下 
面 接着 以 学 生 数 据 为 例 讲解 data.frame。 
(1 ) 创建 data.frame 组 件 ， 存 储 学 生 数 据 。 


ed A te 

> mysts 
name age 

1 zhangsang 22 

2 litsi 25 

3 wangwu 20 

(2 ) 将 数据 集中 的 年 龄 都 增长 1 岁 ( 随 着 新 的 一 年 到 来 ， 学 生 们 都 长 大 了 1 岁 )， 完 成 
这 个 操作 可 使 用 attach 和 detach 方法 。 

前 面 一 直 用 $ 符号 访问 list 列表 的 字段 ， 当 R 语言 的 代码 较 多 时 ， 列 表 组 件 名 前 级 访问 
字段 很 不 方便 ， 因 此 ，R 语言 提供 了 男 一 对 非常 有 用 的 工具 attach 和 detach: attach 把 数据 
集 的 所 有 字段 复制 一 份 副本 ， 绑 定 在 搜索 路 径 ， 这 样 可 以 直接 读 取 它们 〈 仅 能 读 取 ， 写 回 没 
有 意义 ， 因 为 这 只 是 副本 而 已 )， 无需 显示 表明 列表 名 字 ; detach 则 进行 解 绑 。 

(1) 用 attach 将 学 生 数据 集 的 字段 副本 绑 定 在 搜索 路 径 中 。 


> attach (mysts) 
> age 


[1] 22 25 ‘20 
> name 
[1] zhangsang lisi wangwu 


Levels: lisi wangwu zhangsang 


(2 ) 将 绑 定 的 age 字段 副本 加 1， 并 显示 更 新 后 的 学 生 数据 。 


> age+1->mystsS$age 
> mysts 
name age 
1 zhangsang 23 
2 lisi 26 
3 wangwu 21 


(3 ) 使 用 detach 将 字段 副本 从 搜索 路 径 上 删除 ( 解 绑 )。 


> detach (mysts) 

> age 

错误 : 找 不 到 对 象 'age' 
> name 


错误 : 找 不 到 对 象 'name"' 
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4.4.2 ”最 小 二 乘法 拟 合 


1. 最 小 二 乘法 与 回归 

最 小 二 乘法 是 一 种 数学 优化 技术 ， 它 通过 最 小 化 误差 的 平方 和 找到 一 组 数据 的 最 佳 函 数 
匹配 。 

假设 存在 (x, y) 这 两 个 变量 ， 对 于 一 系列 的 x 变量 值 ， 有 一 系列 的 y 值 与 其 对 应 ， 可 以 
找到 这 两 个 变量 之 间 的 相互 关系 。 比 如 : 对 于 一 次 函数 来 说 ， 可 将 这 些 (x, y) 值 标注 在 直角 
坐标 系统 ， 从 而 得 到 一 条 直线 ， 这 些 点 就 在 这 条 直线 附近 。 那 么 ， 直 线 方 程 的 定义 为 : 

y=kx+b 

其 中 : 上 、2 是 任意 实数 ,大 为 斜率 ，2 为 截 距 。 

下 面 以 y=3x+12 和 y2=6x+12 为 例 进 行 分 析 。 如 图 4-33 所 示 ， 实 线 为 y1 的 图 像 ， 虚 线 
为 y2 的 图 像 。 从 图 像 能 直观 看 出 ， 斜 率 越 大 ， 直 线 越 陡 。y1 的 斜率 是 3， 载 距 为 12; y2 的 
斜率 是 6， 截 距 为 12，y2 方程 的 图 像 明 显 比 yl 陡 。 
下 线性 拟 合 T 














图 4-33 ”直线 的 图 像 


图 4-32 中 标注 的 圆圈 和 星 号 为 (x, y) 格式 表示 的 二 维 数据 点 ， 很 明显 ,圆圈 的 数据 
点 位 于 y1=3x+12 上 ， 而 星 号 的 数据 点 位 于 y2=6x+12 上 。 这 些 二 维 数据 点 被 y1=3x+12 和 
y2=6x+12 方程 的 图 像 连接 。 这 样 做 的 好 处 是 ， 我 们 不 需要 记忆 这 些 数据 点 的 坐标 就 能 预测 
类 似 数 据点 的 位 置 。 比 如 说 , 已 知 x 为 1.5 时 ， 想 要 求 圆圈 数据 点 的 坐标 ， 可 直接 将 x=1.5 
代入 yy1 方程 得 到 : 

y=1.5 x 3+12=16.5 

这 样 就 可 用 y=kx+b 形式 的 一 次 方程 拟 合 数据 点 ， 这 个 过 程 为 线性 拟 合 。 拟 合 的 目标 是 
这 些 点 到 这 条 直线 的 距离 的 平方 和 最 小 。 最 小 二 乘法 是 效果 较 好 的 线性 拟 合 方法 ,最 小 二 乘 
法 拟 合 数据 点 的 过 程 就 是 对 数据 做 回归 分 析 ， 我 们 把 类 似 图 中 的 这 几 条 直线 称 为 回归 线 。 

2. 最 小 二 乘法 拟 合 

R 语言 提供 了 lsift 函数 ， 可 完成 最 小 二 乘法 拟 合 ， 其 主要 参数 如 下 。 
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口 X: 一 个 矩阵 的 行 对 应 的 情况 和 其 列 对 应 为 变量 。 

口 Y: 结果 ， 可 以 是 一 个 矩阵 。 

口 Wt: 可 选 参数 ， 加 权 最 小 二 乘法 的 执行 权重 向 量 。 

口 Intercept: 是 否 应 使 用 截 距 项 。 

口 Tolerance: 公差 将 用 于 矩阵 分 解 。 

口 Yname: 用 于 响应 变量 的 名 称 。 

下 面 来 看 看 y=2x 回归 方程 拟 合 ， 这 里 以 (1,2,3,4)， 钱 (2,4,6,8) 为 例 在 R 中 进行 数据 拟 合 。 


> y<-c(2,4,6,8) 
» Ke=E(l2 a) 
> lsfit (x,y)### 下 面 的 x 为 常数 项 ，Intercept 为 截 距 


$coefficients 
Intercept xX 
0 和 


上 述 拟 合 结果 中 ，Intercept 项 表示 截 距 ，x 项 表示 方程 的 x 变量 的 常数 项 ， 因 此 ， 回 归 
方程 为 y=2x+0=2x。 
再 来 看 看 y=2x+3 回归 方程 拟 合 ， 设 截 距 为 3。 修 改 刚才 的 方程 ， 假 设 回 归 线 为 : y=2x+3。 
(1 ) 根据 回归 线 构造 x 和 y 值 。 
> y<=o(B,. Tr9ri1) 
> .X=C(Lp2 B34) 
(2 ) 执行 1sfit() 函数 进行 拟 合 。 


> lsfit (x,y) 


$coefficients 
Intercept x 
3 2 


上 面 1sfit() 函数 的 运行 结果 表明 ， 这 些 数 据点 的 回归 方程 为 y=2x+3。 


4.4.3 ”交叉 因子 频率 分 析 

交 又 因子 频率 分 析 的 作用 在 于 分 析 数 据 的 分 布 区 间 及 其 统计 指标 。 下 面 举例 说 明 分 析 
过 程 。 

(1) 划分 数据 分 布 区 间 。 使 用 cut 函数 将 变量 y 中 存储 的 数字 划分 到 5 个 分 布 区 间 : [11， 
15]、[15, 19]、[19, 23]、[23, 27]、[27, 31] 示例 如 下 : 


> y<-c(l11.22,13,14,11,22,31,31,31,14) 
> cut(yrS5)=>cuty 
> CUty 
EL i923 位 王 下 5] 115] LILE54 (T9231 {27311 27 311 {271,31) 
LO (ll YS] 
Levels: (1iyi5] ‘(15719] (19723] (237274 (27;31] 


(2 ) 使 用 table 函数 统计 数据 在 每 个 区 间 出 现 的 频率 。 代 码 如 下 : 
wwaibbt.com DODOOOOD 


第 4 章 ”计算 平台 应 用 实例 e 107 


> table (cuty) 

cuty 

[T1115] (1S; LT9) {i9;23] (237523] (277311 
5 0 2 0 3 


(3 ) 使 用 hist 函数 生成 分 布 直方 图 ， 以 便 更 直观 地 观察 数据 分 布 情况 ， 如 图 4-33 所 示 。 
通过 指定 breaks 参数 ( 设置 为 各 区 间 的 边界 值 ) 和 axes 参数 (设置 为 FALSE 表示 手动 画 刻 
度 )， 将 数据 在 table 函数 生成 的 区 间 内 进行 划分 。 代 码 如 下 : 


> bins<-seq (min (y) ,max (y) ,by=4) 
> histl(y,breaks=bins,col="lightblue",axes=FALSE) 
> axis(1,bins) 





> axis(2) Histogram ofy 
结合 table 函数 的 执行 结果 以 及 hist 函数 生成 的 直方 图 ， 可 Ss 

得 到 以 下 结论 : 四 
(1) 分 析 table 函数 的 执行 结果 可 看 出 ， 数 据 主要 集中 在 3” 

[11,15] 区 间 中 ，[11,15] 区 间 内 分 布 的 数字 最 多 ， 该 区 间 内 有 5 它 “ 

个 数字 。 此 外 ,在 [15,19]、[23,27] 区 间 中 没有 数据 分 布 , 变量 1 

y 中 的 数据 在 这 两 个 区 间 内 出 现 频率 为 0。 1 
(2 ) 从 图 4-34 中 可 观察 到 ， 数 据 分 布 情况 与 table 函数 执 7 

行 结果 相 吻 合 。 图 4-34 ”分布 直方 图 


4.4.4 ”向 量 模 长 计算 

向 量 模 长 即 欧 几 里 得 范 数 ， 在 n 维 欧 几 里 得 空间 R, 上 ， 向 量 x =(x1, x, .…, x;) 的 长 度 定 
义 为 : Dx:= y+…+x。 

根据 勾 股 定理 ， 它 给 出 了 从 原点 到 点 x 之 间 的 距离 。 


1. 模 长 函数 定义 

R 拥有 自 定 义 函 数 功能 ， 可 按 如 下 格式 定义 : 

函数 名 <-function (参数 1， 参 数 2，. . .， 参 数 n) { 
函数 体 


} 
下 面 定 义 求 三 维 向 量 模 长 的 vector_length 函数 ， 完 成 模 长 计算 。 


> vector length<-function (x1,x2,x3){ 
+ vlength<-sqrt (x1^2+x2^2+x3^2) 

+ vlength 

在 } 


2. 模 长 计算 
调用 vector_length 函数 ， 计 算 向 量 [12,33,19] 的 模 长 。 


> vector length (12, 33,19) 
[1] 39.92493 
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方 


N 维 向 量 的 模 长 计算 与 三 维 模 长 类 似 。 下 面 重新 定义 vectorn_length 函数 ， 并 调用 它 计 
算 任 意 维度 向 量 的 模 长 。 


> vectorn length<-function (x){ 

+ temp<-0 

4 for (1 in 1slengthts) } i 

+ temp<-temp+x[i]^2 

wk | 

+ vlength<-sqgrt (temp) 

+ vlength 

+ } 

># 下 面 调用 新 的 vectorn_ length 函数 计算 模 长 
> vectorn length(c(11,22,33,44,55)) 


[1] 81.57818 
> vectorn length(c(11,22,33,55)) 
[1] 68.69498 


4.4.5” 欧 氏 距 离 计 算 


欧 氏 距离 (Euclid Distance ) 是 在 nn 维 空间 中 两 个 点 之 间 的 真实 距离 ，n 维 欧 氏 空 间 的 
每 个 点 可 以 表示 为 (x[1], x[2], …, x[n]) ,XY= (x[1], x[2], …, x[n]) 和 7= Gy[1], y[2],…, y[n]) 这 
两 个 点 之 间 的 距离 d(X, 了) 定义 为 下 面 的 公式 : 
d(X, 7) =sqrt (本 ((x[-y[] )*2)) 其 中 i= 1,2,…,n 
利用 尺 语言 的 操作 符 自 定义 功能 完成 欧 氏 距离 计算 ,操作 符 的 定义 使 用 % 符号 % 的 方 
式 定义 ， 实 际 使 用 时 ，% 也 属于 操作 符 的 一 部 分 。 操 作 符 的 定义 格式 如 下 : 
操作 符 名 <-function (参数 1， 参 数 2，. . . ， 参 数 n) { 


语句 
} 


下 面 定义 % 一 % 操作 符 ， 并 计算 二 维 空间 的 欧 氏 距离 。 示 例如 下 : 


> "%~%"<-function (xl1, x2){ 
temp<-0 

for (i in 1l:length (x1)){ 
temp<-temp+ (xl [i]-x2[i])^2 
} 

edis<-sqrt (temp) 

edis 

} 
># 使 用 %~% 操 作 符 ， 计 算 二 维 空间 的 欧 氏 距离 
多 Cl 273) 本“ Cl5s 672) 

[1] 6.928203 
> 


可 以 将 计算 扩展 到 nn 维 空间 中 。 使 用 RR 语言 的 不 定数 量 的 函数 参数 机 制 ， 来 定义 n 维 
空间 的 欧 氏 距离 函数 mycount。 示 例如 下 : 
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> mycount<-function(...)t{ 
+ temp=0 

本: FO lL Ln: Clrs sld 
+ temp=temp+1 

a? 

+ temp 

二 

> mycount (11, 22, 33) 
[到 3 

> mycount (11,22,33,66) 
[1] 4 

> mycount (11,22, 66) 
[1] 3 


4.5 “小结 


本 章 对 Python 语言 和 R 语言 的 语法 基础 以 及 相关 计算 平台 API 进行 了 讲述 ， 同 时 ， 用 
大 量 实 例 讲解 了 相关 计算 平台 的 实际 操作 。 

Python 语言 和 R 语言 是 本 书 讲解 机 器 学 习 用 到 的 主要 语言 ， 也 是 机 器 学 习 工 程 应 用 中 
可 能 用 到 的 编程 语言 ， 在 此 建议 大 家 平时 多 阅读 R 语言 和 Python 语言 的 官网 教程 和 相关 计 
算 平 台 资 料 ， 加 深 对 它们 的 理解 。 

因 本 书 篇 幅 有 限 ， 更 多 的 关于 R 语言 和 Python 语言 的 资料 可 以 查询 相关 官网 。 下 面 列 
举 了 常用 的 官网 链接 。 

R 语言 文档 资料 链接 : 

http://cran.r-project.org/manuals.html 

Python 科学 计算 库 文档 资料 链接 : 

http://docs.python.org/2/ 

http://docs.scipy.org/doc/ 

http://docs.opencv.org/master/modules/reftman.html 

从 下 章 开始 ， 我 们 将 正式 进入 机 器 学 习 和 统计 分 析 的 实战 。 建 议 大 家 在 浏览 器 中 将 上 面 
的 文档 链接 收藏 ， 以 便 更 好 地 理解 本 书 内 容 。 此 外 ， 从 本 章 开 始 ， 每 章 小 结 后 均 有 思考 题 ， 
希望 大 家 在 阅读 本 书 的 过 程 中 ， 多 动手 ， 多 上 机 操作 ， 理 论 联 系 实 践 才 是 王道 。 


思考 题 


1. 本 章 中 提 到 了 Python 将 信息 隐藏 在 声音 和 图 像 载体 文件 的 方法 ， 能 不 能 将 隐藏 了 信 
息 的 图 像 载体 文件 隐藏 在 一 段 音 乐 之 中 ? 


[ 喇 | 提示 : 
可 以 考虑 先 将 隐藏 了 信息 的 图 像 矩 阵 读 入 ， 然 后 将 其 作为 原始 数据 混 进 WAV 格式 的 音 
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乐 文件 之 中 ， 再 用 原始 音乐 文件 作为 解码 的 密 钥 ， 解 码 图 像 数据 后 ， 用 本 章 介 绍 的 方法 从 图 
像 数据 中 恢复 文字 信息 


2. 用 了 语言 分 析 一 个 数据 集 的 数据 ， 将 数据 分 为 适当 的 区 间 ， 然 后 统计 数据 在 每 个 区 
间 的 分 布 数 量 ， 并 作出 直方 图 。 


欧 j 提示 
用 因子 频率 分 析 方 法 实现 。 


3. 用 及 语言 在 x 和 ?) 之 间 建 立 回 归 模 型 ， 得 出 回归 直线 方程 ，x=[1,3,8,9], y=[2,8,23,80] 


僵 担 示 
使 用 及 语言 的 回归 计算 函数 分 析 。 
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在 终极 的 分 析 中 ， 一 切 知识 都 是 历 

史 ; 在 抽象 的 意义 下 ， 一 切 科 学 都 是 数 
学 ; 在 理性 的 基础 上 ， 所 有 的 判断 都 是 
统计 。 
一 一 C.R. 劳 
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统计 分 析 基 础 


统计 学 用 于 研究 对 象 的 数量 性 、 总 体 性 、 变 异性 ， 具 体 说 来 ， 就 是 通过 各 种 统计 指标 
和 指标 体系 来 反映 对 象 总 体 的 规模 、 水 平 、 速 度 、 比 例 、 效 益 、 差 异 和 趋势 等 。 海 量 数 据 
分 析 需 要 一 个 科学 的 理论 基础 ， 统 计 学 是 理论 基础 之 一 ， 统 计 分 析 方 法 也 是 主要 的 数据 分 
析 方 法 。 

机 器 学 习 涉及 许多 统计 分 析 理 论 。 机 器 学 习 应 用 的 统计 分 析 强 调 实际 应 用 效果 ， 检 测 损 
失 函 数 即 描述 预测 与 实际 之 间 的 偏差 ;数据 分 析 领 域 也 以 统计 学 为 基础 ， 统 计 学 善于 对 数据 
建立 模型 ， 并 对 模型 做 出 假设 。 由 此 可 见 ， 无 论 是 在 机 器 学 习 方面 还 是 数据 分 析 领 域 ， 统 计 
分 析 理 论 都 有 着 举足轻重 的 地 位 。 

本 章 将 以 及 语言 为 统计 分 析 计算 工具 讲述 统计 分 析 基 础 ， 在 此 之 前 ， 请 各 位 读者 按照 
第 一 部 分 准备 篇 中 的 指导 , 将 及 语言 计算 平台 搭建 好 。 


5.1 数据 分 析 概 述 


随 着 数据 分 析 技 术 的 不 断 发 展 ， 数 据 分 析 的 定义 众说 纷 颖 。 作 者 尝试 将 数据 分 析 定 义 
为 :“ 数 据 分 析 是 将 数据 转化 成 知识 ， 对 数据 加 以 详细 的 研究 和 概括 总 结 的 过 程 ， 它 用 适当 
的 统计 方法 对 收集 来 的 大 量 数据 进行 分 析 ， 发 现 数据 的 价值 ， 控 掘 数据 的 表征 的 知识 。 

在 第 二 次 世界 大 战 中 ， 数 据 分 析 第 一 次 登 上 世界 舞台 。 在 Budiansky、Stephen 所 著 的 
《Blacketts Far》 中 ， 讲 述 了 一 个 由 数学 家 、 物 理学 家 组 成 的 团体 ， 通 过 对 数据 进行 收集 和 
分 析 ， 使 用 数据 引导 战争 的 故事 。 该 团队 运用 数据 分 析 技 术 对 付 纳粹 潜艇 舰队 ， 并 把 原始 
雷达 系统 收集 的 数据 与 实际 战争 结合 起 来 分 析 ， 从 而 使 海岸 司令 部 的 飞机 拥有 恰当 的 飞行 路 
线 ， 实 现 最 高 效 的 监视 。 同 时 他 们 还 证 明了 一 个 论断 : 在 一 个 15 一 24 稻 船 的 舰队 中 ， 每 艘 
船 有 2.3% 被 击 沉 的 概率 ; 而 在 舰队 船 数 高 于 45 时 ， 被 击 沉 的 概率 只 有 1.1%。 

随 着 社会 的 发 展 ， 数 据 库 已 经 深入 到 各 行 各 业 ， 成 为 了 社会 信息 记录 的 重要 载体 。 为 了 
解决 数据 的 查询 问题 ， 在 数据 库 发 展 的 早期 ，SQL 语言 诞生 并 迅速 发 展 ， 目 前 它 仍然 活跃 
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在 数据 库 领 域 。 近 年 来 ,“ 大 数据 ”一 词 被 炒 得 很 热 ， 大 数据 已 被 用 于 承载 数据 相关 的 绝 大 
部 分 概念 ， 包括: 数据 海洋 、 社 交 媒体 分 析 、 下 一 代数 据 管理 能 力 、 实 时 数据 等 。 各 大 公司 
已 经 开始 理解 并 实践 探索 如 何 处 理 并 分 析 大 量 信息 。 

无 限 风光 在 险峰 ， 只 有 登 上 山顶 ， 才 能 看 到 真正 的 风光 ， 既 然 如 此 ， 那 我 们 就 开始 攀登 
数据 分 析 这 座 “ 大 山 ” 吧 ! 


5.2 ”数学 基础 
统计 分 析 建 立 在 概率 与 统计 的 数学 基础 之 上 ， 在 此 ， 先 简要 介绍 一 下 相关 数学 公式 。 


1. 概率 

概率 是 数学 概率 论 的 基本 概念 。 设 随机 事件 的 样本 空间 为 。， 对 于 Q 中 的 每 一 个 事件 4， 
都 有 实 函 数 P(4)， 满 足 : 

非 负 性 : P(4) 宇 0 

规范 性 : P(O)=1 


可 加 性 : 对 n 个 两 两 互 斥 事件 41, …, 4n 有 : > rn| U4 


任意 一 个 满足 上 述 条 件 的 函数 尸 都 可 以 作为 样本 空间 8 的 概率 函数 ， 称 函数 值 P(4) 为 
2 中 事件 4 的 概率 。 

上 面 的 定义 严谨 但 不 易 理 解 ， 通 俗 来 说 ， 概 率 是 一 个 0 到 1 之 间 的 实数 ， 是 对 随机 事件 
发 生 的 可 能 性 的 度量 。 人 们 有 时 候 会 问 :“ 明 天 会 更 冷 吗 ? ”“ 今 天 的 比赛 我 们 会 赢得 冠军 
吗 ? ”等 ， 他 们 是 在 关注 “天 气 变 冷 “比赛 取胜 ”等 事件 发 生 的 机 会 。 在 数学 上 ， 这 些 事 
件 发 生 的 机 会 可 用 一 个 数 来 表示 ， 称 为 概率 。 概 率 的 主要 公式 如 下 。 

设 事 件 4 发 生 的 概率 ( 可 能 性 ) 为 P(4)， 它 不 发 生 的 概率 (可 能 性 ) 为 P(4)， 它们 之 
间 的 关系 为 : 

P(A4)=1-P(4) 

n 个 事件 41,,，…，4, 发 生 的 概率 为 : 

PU4- SP 之 P(AiA))+ 7 +P(AAAD+**+(-1)" "P(A14,…A,) 

条 件 概率 是 事件 4 在 另外 一 个 事件 8B 已 经 发 生 条 件 下 的 发 生 概率 。 条 件 概率 记 为 P 
(4IB )， 读 作 “ 在 B 条件 下 4 的 概率 "。 比 如 ,“ 如 果 明 天 更 冷 ， 需 要 多 穿 一 件 外 套 吗 ? ”可 
用 条 件 概率 描述 为 : 假设 明天 天 气 更 冷 为 事件 8， 多 穿 一 件 外 套 为 事件 4， 在 事件 8 (天 
气 更 冷 ) 发 生 的 情况 下 ,事件 4 (多 穿 外 套 ) 发 生 的 概率 为 多 少 。 下 面 是 条 件 概率 的 数学 
定义 。 

在 同一 个 样本 空间 8 中 的 事件 或 者 子 集 4 与 3， 如 果 随 机 从 8 中 选 出 的 一 个 元 素 属于 8B， 
那么 这 个 随机 选择 的 元 素 还 属于 4 的 概率 就 定义 为 在 B 的 前 提 下 4 的 条 件 概率 。 定 义 为 : 
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P(4IB) = |4N BB| 

再 将 上 式 中 的 分 子 、 分 母 都 除 以 |8|， 得 到 

P(AIB)= LENE) Re 

其 中 ，P(4B) 表示 联合 概率 ， 指 4 和 8B 两 个 事件 共同 发 生 的 概率 ， 也 可 以 记 为 P(4, 8B) 
或 P(4B)。 

条 件 概 率 在 贝 叶 斯 统计 中 也 称 为 后 验 概率 ， 即 在 考虑 和 给 出 相关 证 据 或 数据 后 所 得 到 的 
条 件 概率 。 

现实 生活 中 ,使 某 事件 发 生 的 前 提 ( 条件 概 率 中 的 “条 件 ”) 可 能 不 止 一 个 。 比 如 : 在 
事件 B,，…，B, 发 生 的 前 提 下 ,事件 4 发 生 的 概率 是 多 少 ? 将 其 定义 如 下 : 


P(A)= 2 P(AB)= 2 P(B) * P(AIB) 


前 面 几 个 公式 都 是 根据 前 提 来 推测 事件 发 生 的 概率 的 ， 能 不 能 根据 事件 发 生 的 概率 推测 
其 前 提出 现 的 概率 呢 ? 当然 可 以 ， 实 质 上 ， 这 就 是 根据 结论 推测 原因 发 生 的 概率 。 比 如 ， 为 
什么 前 面 堵车 了 《事件 4 )， 是 因为 发 生 了 交通 事故 〈 事 件 B, ) 还 是 路 上 车 辆 太 多 以 致 拥塞 
(事件 B,), 或 是 下 完 大 雨 道路 状况 很 差 (事件 B,) ? 

下 面 的 公式 定义 了 事件 4 ( 结论 ) 发 生 了 ,事件 Bt (原因 ) 发 生 的 概率 ， 


PB 14)= PC ~ PEP (AIBY 
P(A) SP(B)P(AIB) 
2. 概率 分 布 轴 
概率 分 布 简称 分 布 ， 是 数学 概率 论 的 一 个 概念 ， 广义 上 指 随机 变量 的 概率 性 质 ， 狭 义 上 
是 指 随机 变量 的 概率 分 布 函数 ， 使 用 最 为 普遍 的 是 狭义 上 的 定义 。 在 此 只 讲解 狭义 概率 分 布 。 
(1 ) 随机 变量 分 布 。 随 机 变量 的 实质 是 函数 ， 其 数学 定义 为 : 设 函 数 对 对 于 概率 空间 $ 
中 每 一 个 事件 e 都 有 定义 X(e)， 其 中 函数 值 为 实数 ， 同 时 ， 每 一 个 实数 r+ 都 有 一 个 事件 集合 
4, 与 其 对 应 ， 其 中 4 上 ={e: X(e)r}， 则 将 了 站 称 作 随机 变量 。 
通俗 地 说 ， 一 个 随机 试验 可 能 结果 (基本 事件 ) 的 全 体 组 成 一 个 基本 空间 28， 随机 变量 
了 是 定义 在 基本 空间 8 上 的 取 值 为 实数 的 函数 ， 即 基本 空间 8 中 每 一 个 点 ， 也 就 是 每 个 基 
本 事件 都 有 实 轴 上 的 点 与 之 对 应 。 比 如 : 在 一 次 扎 硬 币 事 件 中 ， 将 获得 的 国徽 的 次 数 作为 随 
机 变量 ， 则 际 可 以 取 两 个 值 ， 分别 是 0 和 1。 
如 果 随 机 变量 对 的 取 值 是 有 限 的 或 是 以 下 可 数 无 穷尽 的 值 : 
A Xx, Xx, } 
则 称 子 为 离散 随机 变量 。 
如 果 针 由 全 部 实数 或 者 由 一 部 分 区 间 组 成 : 
X={xla<x<b},-w<a<b<% 


则 称 闻 为 连续 随机 变量 ， 连 续 随 机 变量 的 值 是 不 可 数 并 无 穷尽 的 。 
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设 P 为 概率 测度 , 区 为 随机 变量 ， 则 函数 F(x)=P(X<x)(XER) 称 为 的 概率 分 布 函 数 。 
将 随机 变量 区 间 的 下 限定 义 为 a， 上 限定 义 为 5»， 则 分 布 概率 P(a<X<b) 的 定义 为 : 
p(a<X<b)=P(X<b)-P(<X<a) 
=F(b)-F(a) 
(2 ) 离散 随机 变量 分 布 。 离 散 型 随机 变量 X 的 所 有 取 值 与 其 对 应 的 概率 间 的 关系 ， 称 
为 离散 型 随机 变量 的 概率 分 布 ， 或 称 为 概率 函数 。 可 用 列表 法 表示 离散 随机 变量 的 分 布 ， 
如 表 5-1 所 示 。 


表 5-1 离散 随机 变量 分 布 






随机 变量 X 值 
随机 变量 X 出 现 的 概率 pp 


表 5-1 中 第 1 行 是 随机 变量 的 值 ， 第 2 行 是 每 个 值 出 现 的 概率 。 比 如 : 用 随机 变量 描 
述 投掷 一 枚 般 子 点 数 的 概率 分 布 ， 用 随机 变量 天 表示 投掷 一 枚 骨 子 出 现 的 点 数 ， 概 率 分 布 
= (=1, 2, …, 6)， 可 用 如 表 5-2 所 示 的 列表 描述 。 

表 5-2 骨 子 点 数 的 概率 分 布 






货 子 点 数 X 出 现 的 概率 p 


离散 随机 变量 的 概率 分 布 具有 以 下 两 个 性 质 : 
有 过 0 (f=1,2,……,n) 


pl 


(3 ) 0-1 分 布 。 伯 努 利 试验 是 只 有 两 种 可 能 结果 的 单 次 随机 试验 ， 即 随机 变量 蕊 只 有 两 
个 值 0 或 1，0-1 分 布 又 名 伯 努 利 分 布 或 者 两 点 分 布 ， 是 一 个 离散 型 概率 分 布 。 若 伯 努 利 试 
验 成 功 ， 则 随机 变量 取 值 为 1， 否则 随机 变量 取 值 为 0， 成功 概率 为 p(0 志 p 志 1)， 失 败 概率 
为 9=1-p。0-1 分 布 的 概率 质量 函数 (概率 质量 函数 的 值 就 是 离散 随机 变量 分 布 的 概率 ) 定 
义 如 下 : 

P(X=A)=p"(1-p)' ", k=0, 1 

(4) 二 项 分 布 。 二 项 分 布 即 重复 n 次 独立 的 伯 努 利 试验 ， 在 每 次 试验 中 只 有 两 种 可 能 的 
结果 ， 而 且 两 种 结果 发 生 与 否 互 相对 立 ， 并 且 相 互 独 立 ， 与 其 他 各 次 试验 结果 无 关 。 每 次 试 
验 的 成 功 概率 为 p， 当 n=1 时 ， 二 项 分 布 就 是 0-1 分 布 。 

如 果 随机 变量 了 服从 参数 为 n 和 pp 的 二 项 分 布 ， 可 记 为 ~B(n, p), n 次 试验 正好 得 到 
次 成 功 的 概率 为 下 面 的 概率 质量 函数 : 

P(X=k)=Cip (1-p)”™, k=0, 1,*…, nn 
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其 中 ， CR- 


(5 ) Poisson 分 布 。Poisson 分 布 又 名 泊 松 分 布 ， 主 要 描述 单位 时 间 内 随机 事件 发 生 的 次 
数 的 概率 分 布 。 比 如 : 某 服 务 设施 在 一 定时 间 内 收 到 的 服务 请 求 的 次 数 、 电 话 交 换 机 接 到 呼 
叫 的 次 数 、 机 器 出 现 的 故障 次 数 等 。 泊 松 分 布 的 概率 质量 函数 为 : 
P(X=f=e™ 2 , =0, 1, 2, … 
车 他 服从 参数 为 4 的 泊 松 分 布 ， 记 为 X~x(4), 或 记 为 X~P(4)。 
在 了 解 了 概率 基础 知识 后 ， 再 来 看 看 连续 型 随机 变量 。 对 于 随机 变量 七 ， 若 存在 非 
负 可 积 函 数 poDCce<x<+co)， 使 得 对 任意 实数 w bl(a<b)， 都 有 


Po<X<gb- 人 pcodx， 则 为 连续 型 随机 变量 ，Pla<X< 避 为 累积 分 
布 函数 (概率 密度 函数 的 积分 ， 可 完整 描述 实 随 机 变量 X 的 概率 分 
布 )， 函 数 p(x) 为 随机 变量 的 概率 密度 函数 ，p(x) 的 图 像 为 概率 密度 
曲线 ， 如 图 5-1 所 示 。 

概率 密度 函数 p(x) 有 如 下 性 质 : 

OD DC) 过 0 





oO 「。 pCDdx=1 
定 积分 的 几何 意义 为 : 对 于 一 个 给 定 的 正 实 值 函 数 ftx),，ftx) 


在 一 个 实数 区 间 [a, 5] 上 的 定 积分 由 fr)dx 是 在 0xy 坐标 平面 上 ， 


由 曲线 (x, ftx))、 直 线 x=a, x=b 以 及 x 轴 围 成 的 曲 边 梯形 的 面积 值 ， 
如 图 5-2 中 的 阴影 部 分 。 图 5-2 定 积 分 的 几何 意义 


根据 图 5-2 所 示 的 定 积分 几何 意义 ，|9 p(x)dx 为 图 5-2 中 的 阴影 部 分 ， 其 中 p(x) 为 概率 


密度 函数 ， 而 Pla<X<b)= | pC)dx， 因 此 ， 连 续 随机 变量 X 在 a 与 5 之 间 分 布 的 概率 为 概 
率 密度 函数 在 区 间 [a, 5] 上 的 定 积分 。 

概率 质量 函数 和 概率 密度 函数 不 同 之 处 在 于 : 概率 质量 函数 针对 离散 随机 变量 定义 ， 本 
身 代 表 随 机 变量 的 概率 ; 概率 密度 函数 针对 连续 随机 变量 定义 ， 本 身 不 是 概率 ， 只 有 对 连续 
随机 变量 的 概率 密度 函数 在 某 区 间 内 进行 积分 ( 积分 后 得 到 累积 分 布 函数 ) 后 才能 完成 概率 
的 计算 。 

(6 ) 连续 型 均匀 分 布 。 连 续 型 随机 变量 在 等 长 度 的 每 个 空间 上 取 值 的 概率 都 相同 ， 则 称 
蕊 服从 [a, b] 上 的 均匀 分 布 , 记 作 ~U[a, b]， 它 的 概率 密度 函数 为 : 


ne a<x<b 
0 ,其 他 





累积 分 布 函数 为 : 
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0 ,x<a 
F(x)= 加 a<x<b 


1 ,x 二 b 
连续 型 均匀 分 布 函数 的 期 望 值 和 中 值 等 于 区 间 [a, 5] 上 的 中 间 点 : 
at+b 
3 
方差 为 : 


Var[X]= 和 六 


《7 ) 指数 分 布 。 指 数 分 布 可 用 来 表示 独立 随机 事件 发 生 的 时 间 间 隔 ， 比 如 旅客 进 机 场 的 
时 间 间 隔 等 。 它 的 概率 度 函数 随 着 取 值 的 变 大 而 指数 减 小 ， 定 义 如 下 : 


忆 x>0 
/F110 其 他 


其 中 , 4 是 指 每 单位 时 间 发 生 该 事件 的 次 数 ，4>0。 
累积 分 布 函 数 定义 为 : 
0 ,x<0 
ser{ x>0 
(8 ) 正 态 分 布 。 若 随机 变量 了 服从 一 个 位 置 参 数 为 uy、 尺度 参数 为 o 的 概率 分 布 ， 记 为 : 
XN(1, a)， 服 从 正 态 分 布 的 随机 变量 的 概率 规律 为 : 与 上越 邻 近 的 值 的 概率 越 大 ， 离 / 越 
远 的 值 的 概率 越 小 ; o 越 小， 分 布 越 集中 在 4 附近 ，o 越 大 ， 分 布 越 分 散 。 正 态 分 布 的 概率 
密度 函数 曲线 呈 钟 形 ， 又 经 常 被 称 为 钟 形 曲 线 ， 密 度 函 数 为 : 


1 GD 
f(x)= Fe 2 一 co<X<+co 
27 0 


累积 分 布 函数 为 : 
F(X)= Hs 人 od 
正 态 分 布 密度 具有 如 下 性 质 : 


口 曲线 关于 直线 X= 对 称 。 


口 当 x=y 时 ,flx) 取得 最 大 值 
口 ftx) 有 渐 近 线 y=0。 
口 ft) 有 两 个 拐点 w+ 万 Lo7)。 


人 
2 0 ” 


十 oo 下 C10)’ 
20 dx= 
-o ro 1。 


3. 随机 变量 数字 特征 相关 公式 
分 布 函 数 完全 刻画 了 随机 变量 取 值 的 概率 规律 ， 因 此 ， 在 实践 中 ,我 们 需要 知道 随机 变 
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量 的 某 些 分 布 指标 ， 比 如 变量 的 分 布 趋势 、 分 布 均匀 程度 等 ， 以 便 分 析 随 机 变量 的 数字 特征 。 
(1 ) 数学 期 望 。 数 学 期 望 反映 了 随机 变量 的 平均 取 值 。 离 散 性 随机 变量 的 数学 期 望 是 试 
验 中 每 次 可 能 结果 的 概率 乘 以 其 结果 的 总 和 ， 离 散 型 随机 变量 蕊 的 数学 期 望 为 : 


ED= 之 xp 
连续 型 随机 变量 区 的 数学 期 望 为 ， 


ELDI= | % xDdz 

(2 ) 方差 。 方 差 刻画 了 随机 变量 对 它 的 均值 的 偏离 程度 ， 如 果 瑟 是 随机 变量 式 的 期 

望 值 (平均 数 y=E[X] )， 则 随机 变量 X 或 者 分 布下 的 方差 为 : 
Var(X)=E[(X-1)] 

(3 ) 协 方差 。 协 方差 表示 的 是 两 个 变量 的 总 体 的 误差 ， 如 果 两 个 变量 的 变化 趋势 一 致 ， 
也 就 是 说 ， 如 果 其 中 一 个 大 于 自身 的 期 望 值 ， 另 外 一 个 也 大 于 自身 的 期 望 值 ， 那 么 两 个 变 
量 之 间 的 协 方差 就 是 正 值 。 如 果 两 个 变量 的 变化 趋势 相反 ， 即 其 中 一 个 大 于 自身 的 期 望 值 ， 
另外 一 个 却 小 于 自身 的 期 望 值 ， 那 么 两 个 变量 之 间 的 协 方差 就 是 负 值 。 如 果 苞 与 了 是 统计 
独立 的 ， 那 么 二 者 之 间 的 协 方差 就 是 0。 

期 望 值 分 别 为 E(X)=y 与 E(7)=v 的 两 个 实数 随机 变量 无 与 了 之 间 的 协 方差 ， 定 义 为 : 

cov(X, Y)=E((X-1)(Y™Y) 

其 中 是 期 望 值 ， 也 可 表示 为 : 

cov(X, Y)=E((X* 7)-pv 


5.3 回归 分 析 


在 进行 回归 分 析 时 ， 通 常 利用 数理 统计 中 的 回归 方法 ， 确 定 两 种 或 两 种 以 上 变量 间 相 互 
依赖 的 定量 关系 。 


5.3.1 单 变量 线性 回归 


在 第 4 章 中 曾 谈 到 数据 的 线性 回归 ， 可 能 会 出 现 一 种 情况 ， 所 有 的 数据 点 都 准确 地 
落 在 了 回归 线 上 。 但 在 现实 中 ,很 难 有 如 此 精确 的 模型 ， 比 如 有 两 个 变量 x 和 y， 其 中 ， 
X=[5,7,9,11,16,20]，y=[1,2,3,4,7,9]， 现 在 要 在 x 与 y 之 间 建 立 回 归 模 型 ， 该 如 何 实 现 ? 

先 用 RR 语言 构造 数据 点 。 


> Ve-C (S777 011s16;20) 
2, KC (lL.3dy Is WY 


在 建立 回归 线 之 前 ， 先 通过 R 语言 的 plot 函数 绘制 这 些 点 的 位 置 ， 观 察 分 布 规律 ， 如 
图 5-3 所 示 。 


> plot (x,y) 
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图 5-3 散 点 图 


图 5-3 称 为 散 点 图 ， 能 清晰 地 在 坐标 系 中 查看 数据 点 位 置 ， 横 轴 为 x， 纵 轴 为 y。 

从 散 点 图 上 可 以 看 出 x 和 yy 之 间 存 在 线性 关系 ,可 以 表示 为 =kx+b 这 种 一 次 函数 的 模 
型 。 不 过 想 要 画 一 条 直线 完全 穿 过 这 些 点 是 不 可 能 的 ， 但 能 保证 这 些 点 到 这 条 直线 的 距离 最 
小 ， 这 个 距离 就 是 残 差 。 残 差 是 观测 值 与 预测 值 之 间 的 差 。 下 面 来 具体 看 一 下 。 

首先 ， 通 过 lsfit 函数 计算 回归 直线 方程 的 斜率 和 截 距 以 及 残 差 。 代 码 如 下 : 


> lsfit(x,y) 
$coefficients 
Intercept xX 
3.338028 1.845070 
Sresiduals 


[1] -0.18309859 -0.02816901 0.12676056 0.28169014 -0.25352113 0.05633803 


上 面 代码 中 出 现 的 residuals 表示 残 差 ， 残 差分 别 反映 了 这 些 点 与 直线 的 差异 ， 和 残 
差 越 小 越 好 。 残 差 直接 反映 了 数据 点 到 回归 直线 的 距离 ，-0.18309859、-0:02816901、 
0.12676056、0.28169014、-0.25352113 、0.05633803 分 别 是 当 x 值 为 [1,2,3,4,7,9] 时 ， 用 
=1.845070x+3.338028 回归 方程 求 得 的 y 值 与 实际 y 值 [5,7,9,11,16,20] 的 差额 。 残 差 e; 的 计 
算 公 式 为 : 

eryp(i=1,2,…,n) 
其 中 ，y; 表示 实际 值 ，5, 为 按 回 归 方 程 预测 的 值 。 
例如 ,将 x=2 代入 该 例 中 的 回归 方程 ， 即 为 y=1.845070x2+3.338028， 计 算 可 得 到 yy 的 
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预测 值 ， 然 后 得 到 残 差 ， 如 下 所 示 : 
实际 y 值 -预测 y 值 守 1.845070x2+3.338028-7 守 -0.02816901 
然后 ,绘制 散 点 图 及 回归 线 。 命 令 如 下 : 


>abline (lsfit (x,y)) 


刚才 将 2 代入 回归 方程 后 ， 计 算 1.845070x2+3.338028-7， 得 到 残 差 仅 为 -0.02816901， 
在 图 5-4 中 找到 回归 线 上 x=2 时 yy 的 值 ， 能 看 出 ,圆圈 代表 的 y 值 几乎 贴近 回归 线 。 再 看 
x=] 、3、4、7、9 时 ， 回 归 线 对 应 的 y 值 都 比较 贴近 回归 线 ， 这 些 数据 点 紧 靠 在 回归 线 周围 ， 
显然 回归 效果 不 错 。 

残 差 不 应 该 有 某 种 趋势 ， 若 残 差 中 出 现 一 种 明显 的 趋 ”2 
势 ， 则 意味 着 模型 不 适合 。 如 图 5-4 所 示 的 残 差 分 布 较 均 
名 ,没有 明显 的 趋势 显示 大 量 数据 点 偏离 了 回归 线 。 3 

事实 上 ， 也 可 以 使 用 lm 函数 进行 更 详细 的 回归 分 析 。 > 
代码 如 下 : 10 


> Wt) 
> y=e(5,7r971il; L620) 
> lm(y~x)->xy 2 4 6 8 
> summary (xy) 和 

图 5-4 散 点 图 及 回归 线 
Call: 
lm(formula = y ~ x) 


Residuals: 
1 2 3 4 5 6 
-0.18310 -0.02817 0.12676 0.28169 -0.25352 0.05634 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) 3.33803 0.16665 20.03 3.67e-05 *** 
x 1.84507 0.03227 57。17 5.60e-07 *** 


Signif. codes:; 0 ‘**x’ 0.001 ‘**” 0.01 ‘*’ 0.05 ‘.” 0.1 “°’ 1 


Residual standard error: 0.222 on 4 degrees of freedom 
Multiple R-squared: 0.9988, Adjusted R-squared: 0.9985 
F-statistic: 3269 on 1 and 4 DF, p-value: 5.604e-07 
>plot (x, y) 

>abline( lm(y~x)) 


在 上 述 代 码 中 ，Coefficients 栏 的 内 容 如 下 。 

口 Estimate: 斜率 与 截 距 的 估计 值 。 

口 Std. Error: 斜率 与 截 距 的 估计 标准 差 。 

口 tvalue: 斜率 与 截 距 的 假设 检验 的 t 值 。 

口 Pr(>lt): 与 显著 性 水 平 比较 ， 决 定 是 否 接受 该 假设 检验 。 
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在 Coefficients 每 行 的 最 后 一 列 有 星 号 ， 这 个 星 号 的 含义 表示 线性 关系 是 否 显著 : * 的 数 
量 是 0 一 3,，* 的 数量 越 多 则 线性 关系 越 显 著 。 本 例 中 ，Coefficients 栏 的 Pr(>|t) 字 段 (3.67e- 
05 以 及 5.60e-07 ) 后 标注 有 ***， 说明 x 与 y 之 间 的 线性 关系 很 强 。 


5.3.2 ”多 元 线性 回归 

多 元 性 回归 可 建立 多 个 自 变量 和 应 变量 之 间 的 关系 ， 其 回归 模型 方程 一 般 为 : 

J 一 Do+DIXITD2X2 十 … 十 DECEHe 

其 中 , y 为 因 变量 ，xi, x,, …, x 为 自 变量 ，b, 为 常数 项 ，Di, b,, …, x 为 回归 系数 。 

在 进行 多 元 线性 回归 分 析 时 ， 可 使 用 lm 函数 ， 在 上 节 例 子 的 基础 上 增加 一 个 自 变 量 
x2=[3,4,5,6,8,10]， 来 看 看 会 有 什么 效果 。 代 码 如 下 : 
y<=-e (5,7,9,11,16,20) 
EL=G(1 2.34,7.9 
x2<-c(6,8,10,12,16,20) 
lm(y~x+x2) ->xy2 


V Vv vyV 


> summary (xy2) 
Calls 
lm(formula = y ~ x + x2) 


Residuals: 
于 2 到 4 5 6 
-7.495e-16 9.195e-16 4.172e-17 -2.117e-16 1.839e-16 -1.839e-16 


Coefficients: 
Estimate Std. Error t value Pr(>|t|) 
(Intercept) 1.000e+00 3.787e-15 2.640e+14 <26-1 让 


x 1.000e+00 1.359e-15 7.357e+14 «2e=1 6 兴 灿 
x2 5.000e-01 8.019e-16 6.236e+14 <282L6. *# 
Signif, codess © ‘wx O00 w 0-01 ‘* 0.05 “.” 0.1 “* 1 


Residual standard error: 7.121le-16 on 3 degrees of freedom 
Multiple R-squared: Le Adjusted R-squared: 1 
F-statistic: 1.591e+32 on 2 and 3 DF, p-value: < 2.2e-16 


通过 上 述 回 归 分 析 ， 得 出 该 回归 方程 为 y=xx0.5xx2+1，Std. Error、t value、Pr(C>lt 以 
及 线性 相关 程度 等 指标 的 含义 同 单 变 量 线 性 回归 类 似 。 


5.3.3” 非 线性 回归 


非 线 性 回归 模型 较 多 ， 其 中 应 用 得 较 多 的 有 以 下 模型 : 
(1 ) 多 项 式 模型 : 


y=PotBix +Brx … +B te 
(2 ) 指数 模型 : 


y=ae”e 
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(3 ) 需 函 数 模型 : 


bl b2 
y=ax! XxX, € 


(4) 成 长 曲线 模 : 
y=1/(Bothie “+e) 
实际 应 用 中 ， 除 上 述 模型 外 ， 还 有 很 多 非 线性 回归 模型 ， 但 无 论 是 哪 种 非 线性 回归 模 
型 ， 最 后 都 可 以 通过 变量 变换 转化 为 线性 模型 ， 从 而 用 最 小 二 乘法 进行 回归 分 析 。 下 面 以 
J 一 po+pie“+e 模型 为 例 讲解 非 线 性 回归 的 方法 。 
(1 ) 准备 回归 分 析 用 数据 ( 假设 已 预先 知道 回归 方程 ， 通 过 回归 方程 精确 计算 y 值 )， 


>XZ<=-G(172734777187 9 
>y <- 100 + 10 * exp(x / 2) + rnorm(x) 


(2 ) 使 用 R 语言 的 nls 函数 ， 应 用 最 小 二 乘法 原理 ， 实 现 非 线性 回归 分 析 。 


>nlmod <- nls(ly ~ Const + A * exp(B * x)) 


(3 ) 使 用 summary 函数 分 析 拟 合 结果 。 


> summary (nlmod) 
Formula: y ~ Const + A * exp(B * x) 
Parameters: 


Estimate Std. Error t value Pr(>|t|) 
Const 1.00le+02 8.377e-01 119.4 2.95e-08 *** 


A 1.006e+01 1.759e-01 S72 559e~-07 **w* 
B 4.995e-01 1.925e-03 259.5 1.328=09 *** 
Signif, codes: 0 ‘***” 0.001 ‘#**” 0.01 和” 0.05 “.” 0.1 ‘“* 1 


Residual standard error: 1.1 on 4 degrees of freedom 


Number of iterations to convergence: 8 
Achieved convergence tolerance: 4.887e-07 


> 


其 中 ， 在 Parameters 栏 ， 对 方程 涉及 的 以 下 3 个 参数 进行 了 预测 : 
pu=Const=1.001e+02 
p=4=1.006e+01 
b=B=4.995e-01 
将 以 上 参数 与 程序 中 y 值 的 生成 规则 进行 对 比 ， 可 以 看 见 ， 拟 合 效 果 还 是 不 错 的 。 
前 面 为 解释 非 线 性 回归 过 程 ， 将 x 代入 参数 确定 的 非 线 性 回归 方程 计算 y 值 ， 然 后 ， 依 
据 x 和 y 推出 非 线 性 回归 方程 的 参数 。 但 实践 应 用 中 ， 往 往 需 要 依据 一 组 x 值 和 y 值 ， 推 导 
非 线性 方程 的 参数 ， 因 此 ， 尝 试 通过 rmorm 函数 产生 较 小 的 随机 数 ， 加 在 精确 计算 的 y 值 上 ， 
这 样 计算 后 形成 的 非 线 性 回归 模型 拥有 一 定 的 残 差 ， 较 接近 真实 环境 。 
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>y <- 100 + 10 * exp(x / 2) + rnorm(x) 


(4 ) 绘制 拟 合 效 果 图 。 代 码 如 下 : 


>plot (x,y, main = "nls(o)") 
>curve(100 + 10 * exp(x / 2), col = 4, add = TRUE) 
>lines (x, predict (nlmod), col = 2,type="'b') 


如 图 5-5 所 示 为 拟 合 效果 图 ， 显 示 出 拟 合 效果 不 错 。 其 中 ， 偏 上 的 线 为 预测 的 回归 线 ， 
偏 下 的 线 为 实际 方程 。 回 归 在 [4,7] 的 区 间 内 拟 合 效 果 较 差 ， 这 是 样本 数据 太 少 的 原因 ， 因 
为 样本 数据 仅 有 9 个 。 . 

参与 拟 合 的 样本 数据 量 决定 了 拟 合 效果 的 好 坏 。 可 以 加 大 自 变 量 的 数量 ,重新 应 用 nls 
函数 进行 拟 合 , 来 看 看 效果 如 何 。 代 码 如 下 : 


>x<-seq(1,10,0.1) 

>y <- 100 + 10 * exp(x / 2) + rnorm(x) 

>nlmod <- nls(ly ~ Const + A * exp(B * x)) 

>plot (x,y, main = "nls(o)") 

>curve(100 + 10 * exp(x / 2), col = 4, add = TRUE) 
>lines (x, predict (nlmod), col = 2) 


如 图 5-6 所 示 是 相应 的 效果 图 ， 从 中 可 以 看 出 ， 回 归 线 与 实际 方程 线 很 接近 。 








nls(o) nls(o) 

1 500 

800 上 - 
. oo| 000 

400 i 

200 

2 4 ， 6 8 2 二 省 8 10 
图 5-5 ” 拟 合 效果 图 图 5-6” 非 线性 回归 效果 图 


不 过 ， 图 5-6 所 示 的 回归 效果 仍 存 在 一 个 问题 ， 就 是 样本 过 于 集中 在 回归 线 上 了 ， 为 使 
回归 分 析 更 接近 真实 应 用 环境 ,需要 继续 加 大 随机 数 的 范围 ， 增 加 非 线 性 回归 的 残 差 ， 使 样 
本 点 散布 在 回归 线 周围 。 


>x<-seq (1,10,0..1) 
>y <- 100 + 10 * exp(x / 2) + rnorm(x)*100 
>nlmod <- nls(Y ~ Const + A * exp(B * x)) 


wwaibbt.com DOD00000 


124 9 第 三 部 分 统计 分 析 实 战 篇 


>plot (x,y, main = "nls(o)") 
>curve (100 + 10 * exp(x / 2), col = 4, add = TRUE) 
>lines (x, predict (nlmod), col = 2) 


从 图 5-7 可 以 看 出 ， 样 本 点 虽然 没有 集中 在 回归 线 上 ， 而 是 散落 在 回归 线 周 围 的 区 域 ， 
产生 的 残 差 较 大 ， 但 样本 点 的 整体 走向 与 回归 线 一 致 ， 此 外 ， 回 归 线 与 实际 方程 这 两 条 线 几 
乎 重合 说明 回归 分 析 较 准确 地 预测 出 回归 方程 的 各 个 参数 。 因 此 ， 从 整体 上 观察 ， 拟 合 效 
果 不 错 ， 回 归 模 型 适当 。 


nls(o) 








图 5-7 接近 真实 环境 的 非 线 性 回归 


5.4 数据 分 析 基 础 


5.4.1 区间 频率 分 布 
下 面 是 美国 地 震 台 网 公布 的 全 球 2013 年 5 月 20 日 22 点 到 24 点 发 生 的 所 有 地 震 的 震级 。 


时 间 震级 
2013-05-20T23:57:12.000+00:00 1.6 
2013-05-20T23:57:12.000+00:00 0.9 
2013-05-20T23:52:59.000+00:00 2 
2013-05-20T23:49:15.100+00:00 2.2 
2013-05-20T23:46:36.000+00:00 2.3 
2013-05-20T23:44:07.000+00:00 7 
2013-05-20T23:38:17.000+00:00 1.3 
2013-05-20T23:34:12.400+00:00 1.6 
2013-05-20T23:33:43.440+00:00 4.7 
2013-05-20T23:25:20.500+00:00 1.2 
2013-05-20T23:23:35.100+00:00 0.9 
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2013-05-20T23:07:34.960+00:00 
2013-05-20T23:06:42.800+00:00 
2013-05-20T23:01:25.480+00:00 
2013-05-20T22:59:58.000+00:00 
2013-05-20T22:51:47.120+00:00 
2013-05-20T22:48:40.570+00:00 
2013-05-20T22:48:18.350+00:00 
2013-05-20T22:36:27.310+00:00 
2013-05-20T22:13:36.000+00:00 
2013-05-20T22:13:09.000+00:00 
2013-05-20T22:10:47.000+00:00 
2013-05-20T22:09:33.600+00:00 
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下 面 就 以 上 面 的 数据 为 例 ， 来 讲述 区 间 频 率 分 布 。 现 在 的 任务 是 完成 地 震 震级 分 析 。 


(1 ) 将 地 震 震 级 数据 放 入 一 个 向 量 中 。 代 码 如 下 : 


>mag<-c'(1.6,0.9,2,.1,2.2,2.3;1677l1.3,l64.711.2,0.69,4.7,0.56,5.31.1,4.8,4,4.2,4.。 


orladnaslsleD dy 
> mag 


Ey 1 O09 2 2.2 2.3 L727 E83 To6 dT BZ 069 4 7 .0.6 5.3 1 4.8 4.0 4.2 


[19] 4.6 1.3 2.1 1.5 


(2 ) 使 用 cut 函数 将 震级 分 成 5 个 区 间 ， 并 建立 因子 。 代 码 如 下 : 


>factor (cut (mag, 5)) 


3.0 


[1] (1.54,2.48] (0.595,1.54] (1.54,2.48] 
[6] (1.54,2.48] (0.595,1.54] (1.54,2.48] 
[11] (0.595,1.54] (4.36,5.3] (0.595,1.54] 
[2Z6Y (4536,5.3) (3.42,4.36] (3.42,4.36] 
[21] (1.54,2.48] (0.595,1.54] (2.48,3.42] 
Levels: (0.595,1.54] (1.54,2.48] (2.48,3.42] 

(3 ) 统计 因子 频率 。 代 码 如 下 : 

>factor (cut (mag, 5) ) ->magfactor 

> table (magfactor) 

magfactor 

(0.595,1.54] (1.54,2.48] (2.48,3.42] 
8 be/ fh 


(3.42,4.36] 


(1.54,2.48] 
(4.36,5.3] 
(4.36,5.3] 
(4.36,5.3] 


(3.42,4.36] 


(1.54,2.48] 
(0.595,1.54] 
(0.595,1.54] 
(0.595,1.54] 
(4.36,5.3] 
(4.36,5.3] 
5 


可 以 看 出 2013 年 5 月 20 日 22 点 到 24 点 期 间 ， 全球 发 生 的 地 震 在 (0.595,1.54] 内 有 8 起 ， 


在 (1.54,2.48] 内 有 7 起 等 。 


(4) 绘制 直方 图 。 在 及 语言 中 ， 可 使 用 hist 函数 绘制 直方 图 。 


> hist (mag,breaks=5) 


绘制 结果 如 图 5-8 所 示 。 


wwaibbt.com D000000 


126 9 第 三 部 分 统计 分 析 实 战 篇 


Frequency 





图 5-8 直方 图 


5.4.2 ”数据 直方 


直方 图 又 称 柱状 图 、 质 量 分 布 图 ， 是 一 种 对 数据 分 布 情况 的 图 形 表示 ， 由 一 系列 高 度 不 
等 的 纵向 条 纹 或 线段 表示 数据 分 布 的 情况 ， 它 根据 从 生产 过 程 中 收集 来 的 质量 数据 分 布 情 
况 ， 组 成 以 组 距 为 底 边 、 以 频数 为 高 度 的 一 系列 连接 起 来 的 直方 型 矩形 图 。 

地 震 数据 是 一 种 次 数 直方 图 ， 是 由 若干 宽度 相等 、 高 度 不 一 的 直方 条 紧密 排列 在 同一 基 
线 上 构成 的 图 形 ， 其 中 基线 上 每 个 区 间 代 表 了 一 段 震级 ， 高 度 代表 了 这 段 震级 发 生地 震 的 次 
数 (频率 )。 

(1) 用 RR 语言 的 read.table 函数 读 取 地 震 震 级 的 文件 (read.table 方法 可 读 取 文件 ， 生 成 
list 组 件 类 型 的 数据 集 ， 并 且 ， 通 过 指定 header=TRUE 参数 ， 可 将 文件 头 作为 字段 变量 名 )。 


> read.table("eqweek.csv"header=TRUE,sep="，,")->earthquake 


(2 ) 显示 读 取 的 地 震 数据 ( 2013.5.14 一 2013.5.20 )， 验 证 读 取 内 容 是 否 完整 。 


> earthquake DateTime.Latitude.Longitude.Depth.Magnitude.MagType.NbStations . 
Gap .Distance.RMS .Source .EventID.Version 

1 2013-05-20T23:57:12.000+00:00,63.457;-148.291,5.551,.6Ml,irr0 
.8,ak,ak10720946,1.3691E+12 

2 2013-05-20T23:;52:59..0004#00:1:00,61.337,=152.069,81..42 NET ral 
5,ak,ak10720941,1.36909E+12 

3 2013-05-20T23;49515s,100400:007519.9975-155.4267 38.:2;2.2rMdyr 133;0.1;0. 
ll,hv,hv60501711,1.3691E+12 

4 2013-05-20T23:46:36.000+00:00,60.498,-142.974,4.2,2.3,Ml,,,,0.4 


3,ak,ak10720934,1.36909E+12 
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(3 ) 绘制 数据 直方 图 ， 观 察 从 2013 年 5 月 14 日 至 2013 年 5 月 20 日 这 周 内 全 球 地 震 震 
级 的 分 布 情况 。 代 码 如 下 : 

> hist(earthquake$Magnitude,5) 

生成 的 直方 图 如 图 5-9 所 示 。 其 Histogram of earthquake$Magnitude 
中 横 轴 是 震级 ， 纵 轴 是 频率 分 析 。 通 
过 观察 可 得 出 结论 : 震级 在 1 一 2 级 的 
地 震 发 生 频率 最 高 ， 因 为 从 x 为 1 一 2 
时 ， 长 方形 柱 体 最 高 ; 2 一 3 级 的 柱 体 
高 度 仅 次 于 1 一 2 级 ， 发 生 频 率 排 名 第 
二 ; 发 生 频 率 最 小 的 是 6~7 级 的 地 
震 ， 柱 体高 度 很 小 。 总 体 来 说 ，1 一 3 
级 和 4 一 5 级 的 地 震 发 生 较 频繁 。 

数据 直方 图 能 直观 地 说 明 数 据 在 
每 个 区 间 的 分 布 频率 ， 但 如 果 需 要 精 
确 的 分 布 频率 ， 则 需要 使 用 RR 语言 
因子 对 象 。 先 通过 cut 函数 将 数据 分 
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组 ， 然 后 通过 factor() 函数 生成 因子 对 earthquakeSMagnitude 
象 ， 最 后 使 用 table 函数 分 析 频 率 。 代 ER 
码 如 下 : 
> table (factor (cut (earthdquakeS$SMagnitudey5) )) 
(0.955,2.1] (2.1v3.2] (3.2,4.3] (4.3,5.4] {5.4,6.51] 
693 200 46 126 10 


观察 上 述 结果 的 最 后 两 行 ， 每 个 区 间 的 震级 频率 一 目 了 然 ，(0.995,2.1] 区 间 的 震级 频率 
是 693 次 , (2.1,3.2] 区 间 的 震级 频率 是 200 次 等 。 


5.4.3 ”数据 散 点 图 


数据 散 点 图 是 指数 据点 在 直角 坐标 系 平面 上 的 分 布 图 ， 通 过 直接 观察 图 形 辨 认 某 现象 的 
测量 值 与 可 能 原因 因素 之 间 的 关系 ， 具 有 快捷 、 易 于 交流 和 易于 理解 的 特点 。 

数据 散 点 图 表示 因 变量 随 自 变量 而 变化 的 大 致 趋势 ， 将 序列 显示 为 一 组 点 ， 值 由 点 在 图 
表 中 的 位 置 表示 ， 类 别 由 图 表 中 的 不 同 标记 表示 。 通 常用 垂直 轴 表 示 现 象 值 Y， 用 水 平 轴 表 
示 可 能 有 关系 的 原因 因素 六 ， 通 过 对 其 观察 分 析 ， 来 判断 两 个 变数 之 间 的 相关 关系 。 此 外 ， 
依据 散 点 图 可 选择 函数 对 数据 点 进行 拟 合 ， 建 立 回归 模型 。 

下 面 继续 以 全 球 一 周 地 震 数据 为 例 ， 来 讲解 数据 散 点 图 。 

(1 ) 将 变量 放 到 搜索 路 径 上 。 代 码 如 下 : 


> attach (earthquake) 
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〈2 ) 分 析 地 震 震 深 。 代 码 如 下 : 


> summary (Depth) 
Min. lst Qu. Median Mean 3rd Qu. Max. NA's 
0.10 5.80 1215 30.82 38.00 630.70 39 


在 上 述 结果 中 ，Min 表示 地 震 震 深 的 最 小 值 ，Max 表示 最 大 值 ，Median 为 中 位 数 ， 
Mean 为 平均 值 。 我 们 试 着 从 下 面 的 散 点 图 中 分 析 一 下 地 震 震 深 与 震级 的 关系 ， 如 图 5-10 所 示 。 

在 图 5-10 中 ，Depth 是 震 深 ,Magnitude 是 震级 ， 从 表面 上 看 一 周 中 Depth 和 Magnitude 
之 间 没 有 关系 ， 但 仔细 观察 这 个 图 ， 可 发 现 一 个 有 趣 的 结果 : 在 这 一 周 里 当 震 深 超 过 300 
后 ， 震 级 都 接近 5 或 在 5 以 上 ， 而 在 300 以 内 时 ， 震 级 并 不 确定 。 

(3 ) 对 震 深 的 直方 图 进行 分 析 。 先 来 绘制 相关 直方 图 ， 代 码 如 下 : 


>hist (Depth) 


绘制 的 图 形 如 图 5-11 所 示 。 


Histogram of Depth 


























图 5-10 震 深 与 震级 关系 的 散 点 图 图 5-11 震 深 的 直方 图 


观察 图 5-11 可 得 出 结论 : 这 个 星期 内 发 生 的 绝 大 部 分 地 震 的 震 深 在 100 以 内 ， 这 个 区 
间 的 代表 频率 的 柱 体 高 度 最 高 ， 而 发 生 最 少 的 350 一 550 段 和 250 一 300 段 ， 这 两 个 区 间 的 
柱 体 几乎 贴近 半 轴 ， 高 度 很 小 。 

(4) 分 析 带 数据 点 的 震级 直方 图 。 为 提高 直方 图 的 表示 能 力 ， 有 时 需要 在 直方 图 中 显示 
实际 的 数据 点 ， 通 过 观察 这 些 数据 点 的 数量 ， 可 分 析 数 据点 在 每 个 区 间 的 分 布 密集 程度 ， 可 
通过 RR 语言 的 rug 函数 绘制 数据 点 。 代 码 如 下 : 


> hist (Magnitude) 
> rug (Magnitude) 


绘制 出 的 图 形 如 图 5-12 所 示 。 
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仔细 观察 图 5-12 能 看 出 : 在 3 一 4 震级 区 域内 ， 数 据点 分 布 并 不 均匀 ， 在 靠近 3 的 区 域 
内 ， 数 据 更 为 密集 ， 数 据点 集中 分 布 在 偏向 于 3 的 区 域 ; 此 外 , 在 5 一 6 级 震级 区 域 也 出 现 
类 似 现象 ， 数 据点 偏向 于 5$， 这 说 明 3 一 4 级 或 5 一 6 级 震级 范围 内 ， 大 部 分 地 震 的 震级 不 是 
非常 大 ;偏向 于 3 或 5。 

这 些 只 是 根据 一 个 星期 的 数据 进行 分 析 得 到 的 结果 ， 不 一 定 就 代表 真正 的 答案 。 答 案 要 
通过 分 析 大 量 数据 以 及 数据 各 个 指标 关系 ， 同 时 结合 地 球 物 理 知 识 的 研究 才能 得 出 。 

由 于 图 形 直观 性 很 强 ， 浅 显 且 易于 理解 ， 因 此 在 数据 分 析 中 ， 经 常 需要 绘制 图 表 和 直 
线 。 前 面 已 经 讲解 过 绘图 的 方法 ， 在 此 补充 一 下 画 线 方法 ,在 及 语言 中 使 用 lines 函数 完成 
绘制 直线 。 比 如 要 绘制 一 个 (10,40)、(20,50)、(30,60) 的 散 点 图 ， 并 将 点 连 成 线 ， 可 如 下 编 
写 代码 : 


> plot(c(10;20;,30);c(40,50760)) 
> lines(c(10,20,30),c'(40,50,60)) 


绘制 出 的 散 点 及 直线 如 图 5-13 所 示 。 





Histogram of Magnitude 
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图 5-12 带 数 据点 的 震级 直方 图 图 5-13 散 点 及 直线 图 


5.4.4 五 分 位 数 


分 位 数 是 描述 数据 位 置 的 一 种 方法 ， 它 将 一 个 随机 变量 的 分 布 范 围 分 为 几 个 等 份 的 数值 点 。 
分 位 数 法 被 用 来 识别 某 临 界 值 ， 一 般 情况 下 可 使 用 分 位 数 ( 或 分 位 点 ) 描述 小 于 等 于 这 个 临 
界 值 的 观测 值 数 量 占 整个 数据 中 的 某 个 具体 比率 ( 小 于 等 于 该 值 的 数据 为 一 给 定 的 比率 )。 

常用 的 分 位 数 有 中 位 数 、 四 分 位 数 、 五 分 位 数 、 十 分 位 数 、 百 分 位 数 等 ， 其 中 ， 中 位 数 
将 数据 分 布 范围 分 成 了 相等 的 两 个 部 分 。 此 外 ， 我 们 还 能 将 数据 分 布 范围 分 成 更 小 尺寸 的 分 
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割 线 ， 四 分 位 数 将 一 个 分 布 分 成 4 等 份 ， 而 五 分 位 数 将 其 分 成 5 等 份 ， 十 分 位 数 将 其 分 成 
10 等 份 ， 百 分 位 数 将 其 分 成 100 等 份 等 。 

五 分 位 数 法 是 数据 分 析 的 常用 方法 ， 在 R 语 言 中 ,可 使 用 fivenum 函数 计算 五 分 位 数 
( fivenum 函数 会 返回 以 下 数据 : minimum、lower-hinge、median、upper-hinge、maximum )。 
下 面 用 fivenum 函数 对 地 震 数据 进行 分 析 。 代 码 如 下 : 


> fivenum(Magnitude) 
[1 汪 JQ Ls3 二 .1 入.5 六 .5 


分 析 结 果 表 明 ， 震 级 最 小 为 1.0， 最 大 为 6.5， 中 位 数 为 1.7， 通 过 1.7 将 一 组 数据 分 为 
上 下 两 组 ， 然 后 再 计算 上 下 两 组 的 中 位 数 1.3 与 2.5。 


5.4.5 ”累积 分 布 遂 数 


累积 分 布 函数 完整 地 描述 出 了 一 个 实数 随机 变量 X 的 概率 分 布 ， 是 概率 密度 函数 的 积 
分 ， 与 概率 密度 函数 相对 。 它 被 定义 为 随机 变量 小 于 或 者 等 于 某 个 数值 的 概率 P(X<x)， 即 
F(x)=P(X<x)。 我 们 计算 一 下 震级 的 累积 分 布 。 

(1) 通过 RR 语言 的 ecdf 函数 计算 累积 分 布 。 


>ecdf (Magnitude) ->mag ecdf 
>ecdf 

Empirical CDF 

Call: ecdf (Magnitude) 





x[1:50] = hs 
6, 6.5 
(2) 通过 plot 函数 绘制 累积 概率 图 ， 
直观 展示 震级 累积 分 布 。 


> plot(mag ecdf,do.points=FALSE, 
verticals=TRUE) 


绘制 出 的 图 形 如 图 5-14 所 示 。 

图 5-14 的 x 轴 是 震级 ,，y 轴 是 累积 分 
布 概率 ， 当 震级 升 高 时 ， 累 积分 布 概率 也 
随 之 提高 ， 这 个 趋势 很 正常 ， 因 为 累积 分 
布 概率 是 指 小 于 或 等 于 某 个 震级 的 概率 。 
比如 : 从 图 5-14 观察 ， 发 生地 震 的 震级 
在 3 以 内 的 概率 接近 80%， 震 级 在 2 以 内 
的 概率 接近 60%。 


5.4.6， 核 密度 估计 


1. 核 密 度 原 理 
利用 前 面 所 说 的 直方 图 估计 数据 分 布 密度 是 有 局 限 性 的 ， 因 为 数据 分 布 的 密度 函数 是 不 
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平滑 的 ， 它 受 子 区 间 宽 度 影响 较 大 ， 当 数据 维 数 超过 二 维 时 就 有 局 限 。 

什么 是 密度 函数 呢 ? 连续 型 随机 变量 的 概率 密度 函数 (不 至 于 混淆 时 可 简称 为 密度 函 
数 ) 是 一 个 描述 这 个 随机 变量 的 输出 值 ， 在 某 个 确定 的 取 值 点 附近 的 可 能 性 的 函数 ， 而 随机 
变量 落 在 某 个 区 域 之 内 的 概率 为 概率 密度 函数 在 这 个 区 域 上 的 积分 ， 当 概率 密度 函数 存在 的 
时 候 ， 累 积分 布 函数 是 概率 密度 函数 的 积分 。 

如 何 由 给 定 样本 点 集合 求解 随机 变量 的 分 布 密度 函数 ? 解决 这 一 问题 的 方法 包括 参数 估 
计 和 非 参数 估计 。 参 数 估计 中 常用 的 是 参数 回归 分 析 ， 它 假定 数据 分 布 符合 某 种 特定 的 性 
态 ， 如 线性 、 可 化 线性 或 指数 性 态 等 ， 然 后 确定 回归 模型 的 未 知 参 数 。 但 参数 模型 的 这 种 基 
本 假定 与 实际 的 物理 模型 之 间 常 常 存 在 较 大 的 差距 ， 于 是 Rosenblatt 和 Parzen 提出 了 核 密 
度 估计 方法 ， 它 可 估计 未 知 的 密度 函数 ， 是 非 参 数 估计 方法 之 一 。 

假设 样本 数据 值 在 D 维 空间 服从 一 个 未 知 的 概率 密度 函数 ， 那 么 在 区 域 R 内 的 概率 为 : 

P= JapCo)dx 

上 式 中 , 已 是 每 个 样本 数据 点 落 入 区 域 尺 的 概率 ， 假 设 在 YX 个 样本 数据 点 中 ， 有 天 个 

落 入 了 区 域 尺 ， 那么 就 应 该 服从 二 项 分 布 。 | 


Bin(KIN, P= ry jr Er Di P'(1-P)'™ 
在 的 样本 数据 很 大 时 ,KK 约 等 于 NxP。 而 另 一 方面 ,假设 区 域 R 足够 小 ,那么 P 约 
等 于 p(x)xV (WV 为 区 域 RR 的 空间 )。 
于 是 ,结合 两 个 不 等 式 子 可 得 : 
pz- 7 (5-1) 


根据 上 式 ， 来 估算 p(x) 就 有 两 种 方式 : 第 一 , 天 不 变 ， 通 过 决定 区 域 天 的 大 小 来 估算 
密度 函数 ， 采 用 K-nearer-neighbour 方法 ; 第 二 ，F 不 变 ， 通 过 决定 天 的 大 小 来 估算 密度 函 
数 ， 采 用 kernel 方法 。 这 里 选择 第 二 种 方式 ， 假 设 区 域 R 是 一 个 以 x 为 中 心 、 边 长 为 h 的 
极 小 立方 体 ( 也 就 是 了 不 变 )， 定义 kernel 函数 (数据 维 数 为 D 维 ， 当 样本 数据 点 落 入 小 
立方 体 时 ， 函 数值 为 1， 其 他 情况 下 为 0 ) 的 公式 如 下 : 


-| lul1/2, i=1, …,D 
《9 其他 


落 入 立方 体 数据 点 的 总 个 数 玉 就 可 以 表示 为 : 
折 . NW 
Kk (52) 
根据 式 (5-1 )， 把 式 (5-2 ) 代入 式 (5-1 ) 中 ,可 得 : 
PH 





上 式 中 ， 大 /12。 
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2. 核 密度 计算 

R 语言 可 使 用 density 函数 进行 核 密度 估计 ，density 函数 默认 情况 下 在 512 个 点 上 估计 
密度 值 。 下 面 就 用 它 来 计算 一 下 地 震 数据 中 的 震级 核 密度 。 首 先 ， 指 定 hist 函数 的 prob 参 
数 为 TRUE， 绘 制 核 密度 直方 图 ; 然后 通过 lines 函数 ， 绘 制 核 密度 曲线 。 代 码 如 下 : 


> hist (Magnitude,prob=TRUE) 
> lines (density (Magnitude)) 


绘制 出 的 核 密度 如 图 5-15 所 示 ， 图 中 曲线 就 是 核 密度 曲线 。 


Histogram of Magnitude 














图 5-15 震级 核 密度 


5.5 ”数据 分 布 分 析 


这 里 以 老年 常见 病 数 据 为 例 ， 来 讲解 数据 分 布 的 分 析 。 如 表 5-3 所 示 是 一 些 老年 常见 病 
数据 。 


表 5-3 老年 常见 病 数据 


年 龄 疾病 名 称 肿瘤 
nl 肺 恶性 肿瘤 ee 
7 直肠 恶性 肿瘤 | a | 


75 
71 
77 





(1) 在 R 中 加 载 数据 ， 然 后 查看 老年 病 的 老人 年 龄 分 布 情况 及 概率 密度 分 布 ， 绘制 年 
龄 直方 图 。 代 码 如 下 : 
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> read.table ("aged patients.csv",header=TRUE, sep=",")->agedpatients 
> hist (agedpatients$ 年 龄 ) 


绘制 出 的 年 龄 分 布 直方 图 如 图 5-16 所 示 。 
(2 ) 对 年 龄 进行 核 密度 估计 ， 并 绘制 核 密 度 曲 线 。 


> hist (agedpatients$ 年 龄 ,prob=TRUE) 
> lines (density (agedpatients$ 年 龄 ) ) 


绘制 出 的 核 密度 曲线 ， 如 图 5-17 所 示 。 







Histogram of agedpatients$ 年 龄 Histogram of agedpatients$ 年 稚 
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图 5-16 ”年龄 分 布 直方 图 图 5-17 年 龄 的 核 密度 曲线 


(3 ) 通过 min 和 max 两 个 函数 分 析 患 者 的 最 小 年 龄 和 最 大 年 龄 ， 通 过 mean 函数 分 析 年 
龄 的 平均 值 ， 通 过 var 函数 计算 年 龄 的 方差 。 


> min (agedpatientsS$ 年 龄 ) 

[1] 60 

> max (agedpatients$ 年 龄 ) 

[1] :90 

> mean (agedpatientsS$ 年 龄 ) 
[1] 69.09839 

> var (agedpatients$ 年 龄 ) 

[1] 38.60801 


由 上 述 分 析 可 得 出 一 个 结论 : 63 一 72 岁 这 个 阶段 的 老人 必须 要 注意 身体 ， 坚 持 运动 ， 
保持 健康 ， 这 个 年 龄 段 是 急 腹 症 和 肿瘤 两 种 老年 病 的 高 发 期 发 生 概率 较 大 。 从 60 到 90 岁 
的 老人 都 有 可 能 患 上 这 两 种 老年 病 ， 患 者 的 平均 年 龄 是 69 岁 。 标 准 差 比较 大 ， 看 来 这 两 种 
老年 病 在 老人 的 各 个 年 龄 段 中 发 生得 比较 普遍 。 

(4 ) 按 年 龄 分 类 汇总 肿瘤 和 急 腹 证 的 数量 。 代 码 如 下 : 


> attach (agedpatients) 
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> tapply (肿瘤 ,年 龄 , sum) 

60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 
88 90 

19 26 26. 28 2 35 37 22 21 .23 29 26 3 16 19 12.13 19 8 后 W377 2 1 1 0 
”二 

> tapply ( 急 腹 症 ,年 龄 , sum) 

60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 87 
88 90 

2 0 于 0 和 LL 2 

QQ 


(5 ) 分 年 龄 统计 肿瘤 患者 的 数量 。 代 码 如 下 : 
> table (factor(cut (agedpatients5$ 年 龄 [agedpatientsS$ 肿 瘤 ==1],5) )) 


(60,66] (66,72] (72,78] (78,84] (84,90] 
155 158 118 22 5 


(6 ) 分 年 龄 统计 急 腹 证 患者 的 数量 。 代 码 如 下 : 


> table (factor (cut (agedpatients5 年 龄 [agedpatients5 急 腹 证 ==1],5) ) ) 
(60,65.4] (65.4,70.8] (70.8,76.2] (76.2,81.6] (81..°6;,8:7 ] 
4 8 8 5 4 


上 述 分 析 结 果 表 明 : 急 腹 症 患者 在 65 岁 到 77 岁 之 间 发 病 率 较 高 ， 其 中 70 岁 时 发 病 率 
最 高 ;而 肿瘤 患者 在 60 岁 到 72 岁 之 间 发 病 率 较 高 ， 其 中 69 岁 时 发 病 率 最 高 。 


5.6 小 结 


本 章 对 统计 学 基础 进行 阐述 ， 介 绍 了 数据 分 析 的 概念 、 发 展 以 及 需要 的 基础 知识 ， 同 时 
从 线性 回归 和 非 线性 回归 两 个 方面 讲述 了 数据 分 析 基 本 方法 一 一 回归 分 析 ， 并 以 实例 说 明了 
用 及 语言 进行 数据 分 布 情况 分 析 的 方法 。 

统计 分 析 在 机 器 学 习 和 数据 分 析 中 有 着 举足轻重 的 地 位 。 李 开 复 在 攻读 博士 期 间 主攻 语 
音 识 别 。 他 的 导师 坚持 的 方向 是 发 展 和 完善 专家 系统 。 而 他 最 终 发 现 ， 专 家 系统 是 有 严重 局 
限 性 的 ， 无 法 延伸 到 做 不 特定 语 者 的 语音 识别 。 他 认为 有 数据 支持 的 统计 模式 是 唯一 的 希 
望 ， 于 是 改 用 统计 的 方法 来 进行 语音 识别 。3 年 中 ， 他 用 统计 的 方法 把 语音 识别 的 准确 率 从 
40% 逐步 提高 到 80%、90%， 最 后 达到 了 96%,《 商 业 周刊 》 把 他 的 发 明 选 为 1988 年 最 重 
要 的 科学 发 明 。 他 用 统计 学 方法 做 出 的 语音 识别 博士 论文 至 今 还 被 用 作 语 音 识别 产品 的 理论 
基础 。 

Google 在 2006 年 面 对 广 大 用 户 推 出 了 关键 词 统计 分 析 系 统 : Google Trends， 链 接 为 : 
http://www.google.com/trends。 这 是 一 个 非常 有 意思 和 价值 的 产品 ， 有 兴趣 的 读者 不 妨 一 试 。 
下 面 是 利用 这 个 系统 对 “machine learning” 这 个 搜索 关键 词 进行 的 统计 分 析 ， 从 图 5-18 和 
图 5-19 中 可 以 明显 看 出 ， 机 器 学 习 越 来 越 受 人 关注 ， 尤 其 是 从 2011 年 年 底 开 始 ， 人 们 对 机 
器 学 习 的 热衷 度 在 持续 上 升 ， 因 为 这 段 时 期 的 曲线 呈 稳 步 上 扬 趋 势 。 
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machine leaming : 











图 5-18 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结果 








40 DO machine learning techniques 


图 5-19 “机 器 学 习 ” 在 Google Trends 中 的 搜索 结果 

思考 题 

1. 本 章 中 介绍 了 用 R 语言 进行 回归 分 析 的 方法 。 请 对 下 列 几 组 数据 进行 回归 分 析 。 

(1 ) x=[2,5,8,9,12,15],y=[18,52,78,101,125,148] 

(2 ) x=[2,5,8,9,12,15],y=[5,120,502,739,1708,3415] 
提示 

第 一 组 数据 适用 线性 回归 ， 第 二 组 数据 适用 非 线性 回归 ， 回 归 方 程 为 天 xx20+ exp(x /5) 。 

2. 在 Google 关键 词 统 计 分 析 中 搜索 “机 器 学 习 ” 的 中 文 关键 词 ， 描 述 人 们 对 该 关键 词 
兴趣 的 发 展 趋势 ， 目 前 机 器 学 习 的 哪些 分 支 领 域 正在 成 为 人 们 关注 的 热点 。 

3. 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 分 析 2013.3 一 2013.4 期 间 的 数据 ， 


分 震级 统计 这 段 时 期 全 球 发 生 的 地 震 ， 同 时 做 出 这 段 时 间 的 震 深 与 震级 散 点 图 ， 计 算 震 级 的 
累积 分 布 ， 并 显示 累积 分 布 图 。 
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统计 分 析 案 例 


本 章 将 以 及 语言 为 分 析 工具 来 剖析 统计 分 析 案例 ， 对 于 其 中 涉及 的 统计 分 析 知 识 也 会 
做 简单 介绍 ， 请 各 位 读者 按 准 备 篇 的 指导 将 R 语言 计算 平台 搭建 好 。 


6.1 数据 图 形 化 案例 解析 


数据 是 事实 ， 也 称 观 测 值 ， 是 实验 、 测 量 、 观 察 、 调 查 等 活动 的 结果 ， 常 以 数量 的 形式 
给 出 。 数 据 分 析 的 目的 是 把 隐没 在 一 大 批 看 似 杂 乱 无 章 的 数据 中 的 有 用 信息 集中 、 茶 取 和 提 
炼 出 来 ， 以 找 出 所 研究 对 象 的 内 在 规律 。 


6.1.1 点 图 


下 面 以 2010 年 全 国 各 行业 就 业 调 查 数据 ( 部 分 数据 如 表 6-1 所 示 ， 完 整数 据 在 本 书 下 
载 包 中 ) 为 依据 ， 以 点 图 分 析 为 手段 ， 剖 析 电 子 行业 劳动 报酬 水 平 。 


表 6-1 全 国 各 行业 就 业 调 查 部 分 数据 


10300 畜牧 业 308 
20000 采矿 业 44 
i 


读 人 如 表 6-1 所 示 的 数据 文件 。 代 码 如 下 : 
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> read.table ("youxiangz.csv",,header=TRUE, sep=",")->jiuye 

分 析 行 业 报 酬 水 平 ， 以 电子 行业 的 劳动 报酬 为 例 进 行 讲解 ， 主 要 步骤 如 下 。 
(1) 从 数据 集中 筛选 电子 行业 的 劳动 报酬 。 代 码 如 下 : 

> jiuye$ 行 业 名 称 [grepl ("电子 ",jiuye$ 行 业 名 称 ) ] ->jyhy 

> jiuye$ 平 均 劳动 报酬 [grepl ("电子 ",jiuye$ 行 业 名 称 ) ] ->jygz 

> names (jygz)<-jyhy 


(2 ) 绘制 电子 行业 薪水 点 图 ， 如 图 6-1 所 示 。 从 图 6-1 中 可 清楚 地 看 到 7 个 电子 行业 的 
薪水 分 布 情况 。 可 将 图 6-1 分 为 若干 行 ， 每 一 行 代表 一 个 行业 ， 点 在 每 行 的 不 同位 置 代 表 不 
同 的 报酬 ， 所 有 行 的 数值 遵循 同一 刻度 (刻度 尺 在 点 图 的 最 下 方 ， 从 40000 到 120000 分 成 
4 个 区 域 )。 

(3 ) 找到 薪水 最 高 、 最 低 的 行业 。 首 先 找 到 图 6-1 中 相应 行业 代表 的 行 ， 然 后 在 该 行 找 
到 由 点 代表 的 刻度 值 ( 点 在 某 行 的 位 置 )， 最 后 在 刻度 尺 中 找到 相应 数值 ， 读 取 数 值 。 很 明 
显 , 代表 “电子 计算 机 制造 ”行业 报酬 的 点 在 所 有 行 中 最 贴近 右 端 ， 属 于 薪水 最 高 的 行业 ， 
而 “家 用 电器 及 电子 产品 专门 零售 ”行业 的 数值 在 最 左 端 ， 属 于 电子 行业 中 薪水 最 低 的 行业 。 


> dotchart (jygz) 


家 用 电器 及 电子 产品 专门 零售 


机 械 设 备 五 金 交 电 及 电子 产品 批发 


其 他 电子 设备 制造 
电子 元 件 制造 
电子 器 件 制造 
电子 计算 机 制造 


通信 设备 计算 机 及 其 他 电子 设备 制造 业 





40000 80000 120000 


图 6-1 电子 行业 薪水 点 图 


6.1.2” 饼 图 和 条 形 图 


下 面 以 饼 图 和 条 形 图 为 分 析 手 段 ， 对 中 介 行 业 的 平均 劳动 报酬 进行 剖析 。 
( 1) 以 条 形 图 来 表示 平均 劳动 报酬 。 代 码 如 下 : 


> jiuye$ 平 均 劳动 报酬 [grepl ("中 介 ",jiuye$ 行 业 名 称 ) ] ->jygz 
> jiuye$ 行 业 名 称 [grepl ("中 介 ",jiuye$ 行 业 名 称 ) ] ->jyhy 
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> names (jygz)<-jyhy 
> barplot (jygz,horiz = TRUE) 


绘制 结果 如 图 6-2 所 示 。 

从 图 6-2 可 明显 观察 到 , “科技 中 介 服 务 ”行业 的 平均 劳动 报酬 位 居 第 一 ,“ 职 业 中 介 服 
务 ” 位 居 最 后 。 

(2 ) 除了 条 形 图 ， 还 可 以 用 饼 图 分 析 平 均 劳 动 报酬 。 代 码 如 下 : 

> pie (jygz) 


绘制 结果 如 图 6-3 所 示 。 
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图 6-2 ”中 介 行 业 的 平均 劳动 报酬 条 形 图 图 6-3 中介 行 业 的 平均 劳动 报酬 饼 图 


观察 图 6-3 ， 人 代表“ 科技 中 介 服 务 ” 的 面积 所 占 比 重 最 大 ， 因 此 属于 平均 劳动 报酬 最 高 
的 中 介 服 务 行业 。 


6.1.3” 茎 叶 图 和 箱 线 图 


本 节 将 要 讲解 的 茎 叶 图 和 箱 线 图 ， 可 能 大 家 平时 接触 得 比较 少 ， 但 在 数据 分 析 中 经 常用 
到 。 茎 叶 图 和 箱 线 图 不 同 于 前 面 的 图 表 ， 表 面 看 上 去 比较 抽象 ， 一 旦 掌握 了 读 图 的 方法 后 ， 
会 发 现 它们 表现 数据 的 能 力 还 是 很 强 的 。 


1. 茎 叶 图 分 析 

茎 叶 图 又 称 “ 枝 叶 图 ”"， 它 的 思路 是 将 数组 中 的 数 按 位 数 进行 比较 ， 然 后 将 数 的 大 小 基 
本 不 变 或 变化 不 大 的 位 作为 一 个 主干 ， 并 将 变化 大 的 位 的 数 作为 分 枝 ， 列 在 主干 的 后 面 ， 这 
样 就 可 以 清楚 地 看 到 每 个 主干 后 面 有 几 个 数 ， 每 个 数 具体 是 多 少 。 下 面 以 产品 单位 成 本 数据 
为 例 ， 分 析 它 的 茎 叶 图 ， 如 表 6-2 所 示 。 


表 6-2 产品 单位 成 本 数据 


序号 产量 ( 台 ) 单位 成 本 (元 / 台 ) 
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( 续 ) 





单位 成 本 (元 / 台 ) 


© ~、em Bw hb 


在 R 语 言 中 ,使 用 stem 函数 进行 蔡 叶 图 分 析 ， 其 格式 为 : 
> stem( 变 量 ，scale= 长 度 ，width= 绘 图 宽度 ，atom= 容 差 ) 


首先 调用 read.table 方法 读 取 数 据 文件 ， 然 后 调用 stem 函数 绘制 茎 叶 图 。 代 码 如 下 : 


>read.table ("cp.csv",,header=TRUE, sep=",") ->cp 
> stem(cp$ 单 机 成 本 .元 . 台 .,scale=2) 
The decimal point is 1 digit(s) to the right of the | 


stem 函数 的 scale 参数 为 2， 表 示 将 个 数位 分 成 两 段 ，0 一 4 为 一 段 ，5 一 9 为 男 一 段 。 


stem 函数 生成 的 成 本 数据 茎 叶 图 如 下 : 
29 [ 68 
30 | 1356778 
31 | 1135 
a 1 7 
33. 1 
34 | 36 


茎 叶 图 的 每 一 行 表 示 每 个 茎 与 它 的 叶子 ,“|” 前 面 是 茎 ,而 “|” 后 面 是 叶 。 以 最 后 一 
行 “34|36” 为 例 ,“|” 前 面 的 “34” 是 茎 ,后 面 的 “36” 是 叶 ， 这 行 的 意思 是 : 百 位 数 为 3， 
十 位 数 为 4 的 数据 有 两 个 ， 分 别 是 : 345 和 346。 

从 茎 叶 图 中 可 看 出 ， 单 位 成 本 主要 集中 在 300~309 元 ， 因 为 代表 茎 30 的 行 拥有 的 叶子 
最 多 。 此 外 ， 茎 33 的 行 没 有 一 个 叶子 ， 这 说 明 没 有 一 件 产 品 的 单位 成 本 在 330 一 339 元 这 个 
范围 内 。 


2. 箱 线 图 分 析 
箱 形 图 提供 了 一 种 只 用 5 个 点 来 对 数据 集 做 简单 总 结 的 方式 ,这 5 个 点 包括 最 大 值 、 最 
小 值 、 中 位 数 、 下 四 分 位 数 和 上 四 分 位 数 。 箱 形 图 中 最 重要 的 内 容 是 对 相关 统计 点 的 计算 ， 
相关 统计 点 可 以 通过 百 分 位 计算 方法 进行 实现 。 
以 2010 年 全 国 就 业 调查 数据 为 例 ， 绘 制 “ 平 均 教育 经 费 ” 的 箱 形 图 并 进行 分 析 。R 语 
言 中 ， 实 现 箱 线 图 分 析 的 相应 函数 为 boxplot。 下 面 的 代码 绘制 平均 教育 经 费 的 箱 形 图 。 
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> boxplot (jiuye$ 平 均 教育 经 费 ) 


如 图 6-4 所 示 的 箱 形 图 将 平均 教育 经 费 很 形象 地 分 为 中 心 、 延 伸 以 及 分 部 状态 的 全 部 范 
围 。 中 间 那 个 箱子 的 顶部 是 上 四 分 位 数 ， 底 部 是 下 四 分 位 数 ， 中 间 的 粗 线 是 中 位 数位 置 ， 箱 
体 由 上 下 伸 出 的 垂直 部 分 表示 数据 的 散布 范围 。 另 外 在 
散布 范围 外 还 有 一 些小 圆 点 ， 那 些 是 异常 点 ， 可 见 平均 
教育 经 费 有 一 些 特大 值 ， 最 大 的 异常 值 超过 了 12000。 

除了 箱 形 图 外 ， 在 R 语言 中 ,还 可 以 使 用 fivenum 
函数 来 分 析 前 面 说 的 5 个 点 的 概要 。 代 码 如 下 : 

> fivenum (cp$ 单 机 成 本 .元 . 台 .) . 

分 析 结 果 如 下 ， 它 们 分 别 是 最 小 值 、 下 四 分 位 数 、 


中 位 数 、 上 四 分 位 数 、 最 大 值 。 
[1] 296.210 304.275 307.225 313.915 346.230 图 6-4 平均 教育 经 费 的 箱 形 图 








6.2 ”数据 分 布 趋势 案例 解析 
本 节 继 续 以 产品 成 本 和 全 国 就 业 调查 数据 为 例 ， 剖 析 这 两 类 数据 的 分 布 趋势 。 


6.2.1 平均 值 


下 面 使 用 R 语言 的 mean 函数 统计 就 业 调查 数据 中 的 “平均 劳动 报酬 ”。 代 码 如 下 : 
> mean (jiuye[ [" 平 均 劳 动 报酬 "] ] ) 

[1] 42365.36 

同时 ， 还 可 以 统计 一 下 “平均 劳动 报酬 ”和 “平均 教育 经 费 "。 代 码 如 下 : 

> cbind(jiuye[[" 平 均 劳 动 报酬 "] ] ,jiuye[[" 平 均 教育 经 费 "]]) 


> apply (jiuyeinfo,2,mean) 
[1] 42365.365 391.035 


6.2.2 ”加 权 平 均值 

加 权 平 均 数 与 算术 平均 数 类 似 ， 但 数据 集中 的 每 个 数据 对 于 平均 数 的 贡献 并 不 是 相等 
的 ， 有 些 数据 要 比 其 他 的 数据 更 加 重要 。 因 此 ， 在 加 权 平均 法 中 ， 每 个 数据 都 有 其 相对 应 的 
权重 。 

以 产品 成 本 数据 为 例 ， 齐 析 加 权 平 均值 。 首 先 读 取 产 品 成 本 数据 。 代 码 如 下 : 


> read.table ("cp.csv",,header=TRUE, sep=",")->cp 


> cp 

序号 产量 . 台 . 单机 成 本 .元 . 台 . 
1 1 4300 346.23 
2 2 4004 343.34 
3 3 4300 327.46 
4 4 5016 3L3。27 
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15 
16 


然后 ， 求 产品 平均 单位 成 本 。 代 码 如 下 : 


5511 
5648 
5876 
6651 
6024 
6194 
7558 
7381 
6950 
6471 
6354 
8000 


310. 
307.: 
314. 


305 


310.. 
306. 
305's 


300 


306. 
303. 


298 
296 


75 
61 
56 
“12 
82 
83 
2 
“1 
84 
44 
.03 
“2 


> weighted.mean (cp$ 单 机 成 本 .元 . 台 . 


[1] 309.9866 


6.2.3 数据 排序 


在 RR 语言 中 ,使 用 sort 函数 进行 数据 排序 。 比 如 ， 
可 采用 如 下 代码 : 
> sort (jiuyeS$ 平 均 教 育 经 费 ) 


[1] 
LL3] 
[25] 
[37] 
[49] 
[61] 
[73] 
[85] 
[97] 

[109] 
[121] 
[133] 
[145] 
[157] 
[169] 
[181] 
[193] 


0 
2 
46 
72 

100 
125 
L559 
182 
210 
258 
303 
341 
405 
466 
563 
818 
L131 


0 
30 
50 
72 

100 
136 
161 
184 
212 
260 
304 
342 
409 
470 
571 
830 
1198 


0 
31 
51 
75 

100 
138 
161 
186 
212 
267 
305 
348 
416 
486 
582 
832 
1255 


31 
55 
本 
100 
143 
162 
188 
221 
267 
306 
367 
422 
502 
645 
840 
1469 


4 


,cp$ 产 量 . 台 .) 


31 
55 
76 
100 
144 
162 
190 
224 
276 
308 
369 
422 
522 
679 
840 
SS 全 


32 
62 
80 
105 
145 
166 
196 
225 
276 
314 
374 
423 
524 
682 
858 
2087 
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要 对 “平均 教育 经 费 ” 进 行 排序 ， 


6 可 
35 3 
63 65 
89 92 

109 110 
146 147 
168 168 
196 196 
230 230 
277 282 
315 3 了 还 
374 374 
431 436 
535 551 
692 7Y22 
890 890 
2564 12645 


38 

66 

93 
Ey 
147 
168 
200 
241 
2953 
330 
389 
443 
S51 
738 
890 


8 
42 
66 
93 

外 于 后 
149 
172 
201 
241 
295 
332 
389 
454 
554 
753 
986 


10 

42 

67 

95 
118 
149 
L177 
206 
247 
298 
337 
396 
455 
555 
768 
995 


13 
44 
1 
$5 
119 
5 
177 
210 
247 
299 
340 
402 
461 
557 
782 
1096 


排序 后 ， 可 以 初步 发 现 ， 这 些 行业 的 教育 经 费 中 ， 最 大 的 有 12645， 而 最 小 的 除 0 之 外 


还 有 2， 不 同行 业 之 间 的 教育 经 费 差 异 很 大 。 


也 可 以 改变 排序 顺序 ， 通 过 指定 decreasing 参数 为 TRUE， 实 现 按 从 大 到 小 的 顺序 排列 。 


> sort (jiuye$ 平 均 教育 经 费 , decreasing=TRUE) 


代码 如 下 : 
[1] 12645 
[3 890 
[25] 722 
[37] 551 


2564 
890 
692 
S35 


2087 
858 
682 
524 


L553 
840 
679 
522 


站 


469 
840 
645 
502 


1255 
832 
582 
486 


1198 
830 
571 
470 


13 
818 
563 
466 
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1096 
782 
557 
461 


995, 
768 
5355 
455 


986 
753 
554 
454 


890 
738 
S55I 
443 
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[157] 92 89 80 76 75 75 72 72 7 67 66 66 
[169] 65 63 62 SS 55 3 50 46 44 42 42 38 
[181] 37 35 32 31 31 31 30 27 3 10 8 全 
[下 93] 7 6 2 2 2 0 0 0 

> 


6.2.4 ”中 位 数 


中 位 数 比 平均 值 更 有 稳健 性 ， 因 为 它 不 受 偏 态 分 布 的 影响 。 代 码 如 下 : 

> median (jiuye$ 平 均 教育 经 费 )# 中 位 数 

[14] 222 

> mean (jiuyeS$ 平 均 教 育 经 费 )# 平 均 数 

tl] 23920335 

教育 经 费 的 中 位 数 222.5 与 它 的 平均 值 391.035 有 一 定 差距 ， 这 说 明 平 均 教育 经 费 不 是 
对 称 分 布 的 。 


6.2.5 极 差 、 半 极 差 


极 差 是 一 组 数据 中 最 大 数据 与 最 小 数据 的 差 ， 用 来 刻画 一 组 数据 的 离散 程度 ， 反 映 变量 
分 布 的 变异 范围 和 离散 幅度 ， 在 样本 总 体 中 任何 两 个 单位 的 标准 值 之 差 都 不 能 超过 极 差 。 同 
时 ， 它 还 能 体现 一 组 数据 波动 的 范围 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 极 差 。 

> max (jiuye$ 平 均 教 育 经 费 ) -min (jiuye$ 平 均 教育 经 费 ) 

[1] 12645 

相对 极 差 而 言 ， 四 分 位 数 间距 (上 四 分 位 数 与 下 四 分 位 数 之 差 ) 更 稳定 ， 它 不 受 两 端 个 
别 极 大 值 或 极 小 值 的 影响 ， 可 理解 为 中 间 50% 观察 值 的 极 差 ， 因 此 又 被 称 为 半 极 差 。 

四 分 位 数 是 统计 学 中 分 位 数 的 一 种 ， 即 把 所 有 数值 由 小 到 大 排列 并 分 成 4 等 份 ， 处 于 3 
个 分 隔 点 位 置 的 得 分 就 是 四 分 位 数 ， 下 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 25% 位 置 
的 数 ， 上 四 分 位 数 是 所 有 数据 由 小 到 大 排列 后 处 于 75% 位 置 的 数 。 四 分 位 数 在 R 语言 中 用 
quantile 函数 求解 ， 下 面 的 代码 计算 了 “平均 教育 经 费 ” 和 “平均 劳动 报酬 ”的 四 分 位 数 。 


> quantile (jiuye$ 平 均 教育 经 费 ) 
0% 25% 50% 75% 100% 
0.0 100.0 222.5 425.0 12645.0 
> quantile (jiuye$ 平 均 劳动 报酬 ) 
0% 25% 50% 75% 100% 
13624.0 28607.5 37681.0 51762.0 150098.0 
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变异 度 反 映 数 据 围 绕 中 心 位 的 离散 度 ， 四 分 位 数 间 距 数值 越 大 ， 变 异 度 越 大 ， 反 之 ， 变 


异 度 越 小 。 在 R 语 言 中 使 用 IQR 函数 求解 四 分 位 数 间距 ， 下 面 的 代码 计算 “平均 教育 经 费 ” 
和 “平均 劳动 报酬 ”的 四 分 位 数 间距 。 


> IQR (jiuye$ 平 均 教育 经 费 ) 
[141T 325 


> IOR (jiuye$ 平 均 劳动 报酬 ) 
LL 2319455 


从 执行 结果 来 看 ，“ 平 均 教育 经 费 ” 相 比 “ 平 均 劳动 报酬 ”变异 度 小 很 多 。 
6.2.6 方差 
方差 是 重要 的 数据 分 散 程 度 度量 指标 。 其 计算 公式 为 : 
sr 
在 民 语 言 中 ， 可 使 用 var 函数 统计 方差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 方差 。 
> var (jiuyeS$ 平 均 教育 经 费 ) 
[1] 883263.6 
6.2.7 ”标准 差 
标准 差 也 是 重要 的 数据 分 散 程 度 度量 指标 。 其 计算 公式 为 : 
S= /到 = > (rx) 
在 RR 语言 中 使 用 sd 函数 统计 标准 差 。 下 面 的 代码 计算 “平均 教育 经 费 ” 的 标准 差 。 


> sd (jiuye$ 平 均 教育 经 费 ) 
[1] 939.821 


6.2.8 变异 系数 、 样 本 平方 和 
1. 变异 系数 


变异 系数 ， 又 称 “ 离 散 系数 "， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 ， 其 定义 为 标准 
差 与 平均 值 之 比 。 变 异 系数 的 计算 公式 为 : 


C. 呈 = 立 X100% 


上 式 中 $ 表 示 标 准 差 , 表示 平均 值 。 变 异 系数 越 小 ， 变 异 程度 越 小 ; 反之 ， 变 异 系 数 
越 大 ， 变 异 程度 越 大 。 下 面 的 代码 计算 了 “平均 教育 经 费 ” 的 变异 系数 。 


> sd (jiuye$ 平 均 教育 经 费 ) /mean (jiuyeS 平 均 教 育 经 费 ) 
[1] 2.403419 


再 看 看 “平均 劳动 报酬 ”的 变异 系数 。 代 码 如 下 : 
> sd(jiuye5$ 平 均 劳 动 报 酬 ) /mean (jiuyeS 平 均 劳 动 报 酬 ) 
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[1] 0.4916487 
可 见 ,“ 平 均 教育 经 费 ” 相 对 于 “平均 劳动 报酬 ”分 布 更 分 散 ， 因 为 它 的 变异 系数 更 高 。 


2. 样本 平方 和 

样本 校正 平方 和 (CSS ) 为 样本 与 均值 差 的 平方 求 和 。 下 面 的 代码 计算 “平均 教育 经 
费 ” 的 样本 校正 平方 和 。 

> sum( (jiuye$ 平 均 教育 经 费 -mean (jiuye$ 平 均 教育 经 费 ) ) ^2) 

[1] 175769451 

样本 未 校正 平方 和 ( USS ) 为 样本 值 平方 的 求 和 。 下 面 的 代码 计算 了 “平均 教育 经 费 ” 
的 样本 未 校正 平方 和 。 


> sum (jiuye$ 平 均 教育 经 费 ^2) 
[1] 206351125 


6.2.9 ” 偏 度 系数 、 峰 度 系数 


1. 偏 度 系数 

在 统计 学 中 ， 偏 度 系数 是 用 于 衡量 实数 随机 变量 概率 分 布 的 不 对 称 性 的 。 偏 度 的 值 可 以 
为 正 ， 可 以 为 负 ， 是 无 量 纲 的 量 ， 其 取 值 通常 为 -3 一 +3， 其 绝对 值 越 大 ， 表 明 偏 斜 程度 越 
大 。 均 值 右 侧 更 分 散 的 数据 偏 度 系数 为 正 ， 左 侧 更 分 散 的 数据 偏 度 系数 为 负 。 

偏 度 系 数 的 计算 公式 为 : 


Y= CD 


在 R 语 言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 ” 的 偏 度 系 数 。 


> mean (jiuye$ 平 均 教育 经 费 ) ->mymean 

> sd (jiuye$ 平 均 教育 经 费 ) ->mysd 

> length (jiuye$ 平 均 教育 经 费 ) ->myn 

> jiuye$ 平 均 教育 经 费 ->x 

> myn/ ( (myn-1)* (myn-2))*sum( (x-mymean) ^3) /mysd^3 
[1] 11.36649 


2. 峰 度 系数 

峰 度 系数 衡量 实数 随机 变量 概率 分 布 的 峰 态 ， 峰 度 高 就 意味 着 方差 增 大 是 由 低频 度 的 大 
于 或 小 于 平均 值 的 极端 差 值 引起 的 。 当 数据 分 布 为 正 态 分 布 时 ， 峰 度 系数 近似 为 0; 当 数据 
分 布 较 正 态 分 布 的 尾部 更 分 散 时 ， 峰 度 系 数 为 正 ， 两 侧 的 极端 数据 较 多 ; 除 此 以 外 ， 峰 度 系 
数 为 负 ， 两 侧 的 极端 数据 较 少 。 

峰 度 系数 计算 公式 为 : 

十 3 -1} 
在 RR 语言 中 ， 可 用 如 下 代码 计算 “平均 教育 经 费 ” 的 峰 度 系数 。 
> mean (jiuye$ 平 均 教 育 经 费 ) ->mymean 
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> sd(jiuyeS$ 平 均 教育 经 费 ) ->mysd 

> length (jiuye$ 平 均 教育 经 费 ) ->myn 

> jiuyeS$ 平 均 教育 经 费 ->x 

>((myn* (myn+1))/((myn-1)* (myn-2)* (myn-3))*sum( (x-mymean) “4) /mysd^4- (3* (myn- 
1)“^2)/( (myn-2)* (myn-3))) 

[1] 146.8809 


6.3 ” 正 态 分 布 案例 解析 


6.3.1 正 态 分 布 函数 

对 于 一 维 实 随机 变量 于 ， 设 它 的 累积 分 布 函数 是 F(x)。 如 果 存 在 可 测 函 数 f(x)， 满足: 

V -<a<c ,Fr(oO-| Pod， 

那么 X 是 一 个 连续 型 随机 变量 ， 并 且 f(x) 是 它 的 概率 密度 函数 。 

累积 分 布 函数 ， 又 叫 累 计 分 布 函 数 ， 是 概率 密度 函数 的 积分 ， 能 完整 地 描述 一 个 实 随机 
变量 X 的 概率 分 布 情况 。 对 于 所 有 实数 x， 累 积分 布 函 数 的 定义 如 下 : 

F(x)=P(X<x) 
正 态 分 布 的 累积 分 布 函数 为 : 


F(x)= pp exp {5} 
其 中 , 4 是 均值 ，o 是 方差 。 
正 态 分 布 的 概率 密度 曲线 通常 如 图 6-5 所 示 。 





J 08 -06 -04 -02 0 02 04 06 08 1 x 
图 6-5 正 态 分 布 的 概率 密度 曲线 
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说 到 正 态 分 布 ， 不 得 不 提 一 下 偏 态 分 布 ， 偏 态 分 布 是 指 频数 分 布 不 对 称 ， 集 中 位 置 偏向 
于 一 侧 ， 若 集中 位 置 偏向 数值 小 的 一 侧 ， 则 称 为 正 偏 态 分 布 ; 如 果 集 中 位 置 偏向 数值 大 的 一 
侧 ， 则 称 为 负 偏 态 分 布 。 如 图 6-6 所 示 ， 左 边 为 负 偏 态 ， 右 边 为 正 偏 态 。 





Negative Skew Positive Skew 


图 6-6 ” 偏 态 分 布 


6.3.2 ” 峰 度 系数 分 析 


可 用 峰 度 系数 计算 “平均 劳动 报酬 ”相对 于 “平均 教育 经 费 ” 哪 个 更 接近 正 态 分 布 。 代 
码 如 下 : 

> mean (jiuye$ 平 均 劳 动 报酬 ) ->mymean 

洲 sd (jiuye$ 平 均 劳 动 报酬 ) ->mysd 

> length (jiuye$ 平 均 劳 动 报 酬 ) ->myn 

> jiuyeS$ 平 均 劳 动 报酬 =>x 

>( (mynx (myn+1))/((myn-1)* (myn-2)* (myn-3) )*sum((x-mymean)^4)/mysd^4- (3x (myn- 
1)^2)/((myn-2)* (myn-3) ) ) 

[1] 5.417817 

上 面 计 算出 了 “平均 劳动 报酬 ”的 峰 度 系数 为 5.417817,， “平均 教育 经 费 ” 的 峰 度 系数 
为 146.8809( 见 6.2.9 节 )。 这 两 个 峰 度 系数 表明 ,“ 平 均 劳动 报酬 ”相对 于 “平均 教育 经 费 ” 
更 接近 正 态 分 布 。 

从 下 面 的 分 析 中 可 以 发 现 , 产品 产量 最 适合 正 态 分 布 模型 ， 因 为 它 的 峰 度 系数 仅 
为 -0.6830728， 非 常 接近 正 态 分 布 。 


> mean (cp$ 产 量 . 台 .)->mymean 

> sd (cp$ 产 量 . 台 .)->mysd 

> length (cp$ 产 量 . 人 台 .)->myn 

> cp$ 产 量 . 台 .->x 

>((myn* (myn+1))/((myn-1)* (myn-2)* (myn-3))*suml( (x-mymean)^4) /mysd^4- (3* (myn- 
1) “2)/( (myn-2)* (myn-3))) 

[1] -0.6830728 


6.3.3 ”累积 分 布 概率 


在 使 用 pnorm 求 产 品 产量 的 分 布 函数 时 ， 对 应 的 每 个 实数 随机 变量 都 有 其 累积 分 布 概 
率 。 下 面 的 代码 计算 产品 产量 的 累积 分 布 概率 。 

> mean (cp5S 产 量 . 台 .) ->mymean 

> sd(cpS$ 产 量 . 台 .)->mysd 
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> length (cp$ 产 量 . 台 .)->myn 
> cp$ 产 量 . 台 .->x * 
>x 
[1] 4300 4004 4300 5016 5511 5648 5876 
6651 6024 6194 7558 7381 6950 6471 
[15] 6354 8000 





> pnorm(x,mymean,mysd) 本 
[1] 0.07435941 0.04519643 0.07435941 日 
0.20013522 0.33567136 0.37868351 § " 
[7] 0.45345196 0.70390728 0.50306546 中 
0.55994848 0.90310411 0.87500925 有 
[13] 0.78449233 0.64954647 0.61239714 村 
0.95270286 9 
[= 
为 了 更 好 地 观察 效果 ， 再 绘制 一 张 产品 产量 
有 点 
的 累积 分 布 概率 的 散 ， 图 。 4000 5 000 6 000 7 000 8 000 
> plot (x,pnorm(x,mymean,mysd)) 多 
绘制 结果 如 图 6-7 所 示 。 图 6-7 产品 产量 累积 分 布 
6.3.4 ”概率 密度 函数 
1. 概率 密度 概述 


一 个 连续 型 随机 变量 的 概率 密度 函数 ( 简称 为 密度 函数 ) 是 描述 这 个 随机 变量 的 输出 值 
在 某 一 个 确定 的 取 值 点 附近 的 可 能 性 的 函数 。 随 机 变量 的 取 值 落 在 某 个 区 域 之 内 的 概率 则 是 
概率 密度 函数 在 这 个 区 域 上 的 积分 ， 当 概率 密度 函数 存在 的 时 候 ， 累 积分 布 函数 则 是 概率 密 
度 函 数 的 积分 。 

正 态 分 布 的 概率 密度 函数 为 : 


F(x)= pe exp [5 
其 中 ,4 是 均值 ，o 是 方差 。 


其 概率 密度 曲线 关于 x=y 对 称 。 


2. 概率 密度 函数 计算 


在 RR 语言 中 ,使 用 dnorm( 变量 ,平均 值 ,标准 差 ) 求解 概率 密度 函数 。 下 面 的 代码 计算 
产品 产量 的 概率 密度 。 


> mean (cpS$ 产 量 . 台 .)->mymean 
> sd(cpS$ 产 量 . 台 .)->mysd 

> length (cpS 产 量 . 台 .)->myn 

> cp$ 产 量 . 台 .->x 
> dnorm(x,mymean,mysd) 

[1] 1.184240e-04 8.009886e-05 1.184240e-04 2.358477e-04 3.070239e-04 
[6] 3.202882e-04 3.336542e-04 2.910430e-04 3.359337e-04 3.321435e-04 
[11] 1.444115e-04 1.733374e-04 2.463862e-04 3.120546e-04 3.225207e-04 
[16] 8.307503e-05 
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查看 产品 产量 均值 ， 得 到 如 下 结果 : 


> mymean 
[1] 6014.875 


绘制 散 点 图 如 图 6-8 所 示 。 可 以 看 到 该 曲线 接近 于 以 6014.875 为 对 称 点 的 对 称 分 布 。 
绘制 代码 如 下 : 


>plot (x, dnorm (x, mymean,mysd)) 


此 外 ，morm 还 可 以 返回 正 态 分 布 随机 数 ， 调 用 格式 为 rnorm( 长 度 ,平均 值 ,标准 差 )。 
比如 : 


>rnorm(50,0,1)->rx 
> plot (rx, dnorm (rx)) 


如 图 6-9 所 示 是 一 个 经 典 的 正 态 密度 曲线 ， 从 曲线 上 看 就 像 一 个 驼峰 。 











| dnorm(x, mymean, mysd) 




















图 6-8 产品 产量 概率 密度 图 图 6-9 正 态 密 度 曲 线 


6.3.5 ”分 位 点 
分 位 点 分 为 上 a 分 位 点 与 下 a 分 位 点 。 


1. 下 a 分 位 点 
可 从 概率 密度 函数 的 角度 理解 下 a 分 位 点 。 设 连续 随机 变量 的 累积 分 布 函 数 为 F(x)， 
密度 函数 为 Ax)， 则 有 : 
FoO= | fp(<2.)=a 
上 式 的 含义 为 : 连续 随机 变量 无 小 于 等 于 Z, 的 概率 为 a。 在 这 里 , 称 Z, 是 匀 的 下 a 分 
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位 点 。 

下 面 计算 产量 分 布 的 下 a 分 位 点 。 设 下 a 分 位 点 的 a=25%=0.25， 需 要 分 析 产 量 小 于 多 
少 的 概率 为 25%。 

计算 产量 分 布 的 下 a 分 位 点 (a=25% )， 可 如 下 调用 qnorm 函数 ( 其 中 ，mean 为 平均 值 ， 
sd 为 标准 差 ) : 

qnorm(0.25,mean, sd) 

具体 代码 如 下 : 


> mean (cp$ 产 量 . 台 .)->mymean 

>sd (cp$ 产 量 . 台 .)->mysd 
>qnorm(0.25,mean=mymean, sd=mysd) 
[44 5243:9 


上 面 的 计算 结果 表明 ， 产 量 <5213.9 的 概率 为 25%。 


2. 上 a 分 位 点 
上 a 分 位 点 的 公式 为 : 


Fo=| 

其 中 ，Z. 为 的 上 a 分 位 点 。 

分 析 上 a 分 位 点 的 公式 可 发 现 ， 上 a 分 位 点 的 计算 与 下 a 分 位 点 有 关 ， 比 如 : 计算 上 a 
分 位 点 (a=25% ) 可 转化 为 计算 下 a 分 位 点 (a=1-25%=75% )。 

下 面 计算 产量 分 布 的 上 a 分 位 点 。 设 上 a 分 位 点 的 a=25%， 需 要 分 析 产 量 大 于 多 少 的 
概率 为 25%。 

计算 产量 分 布 的 上 a 分 位 点 (a=25% )， 可 如 下 调用 qnorm 函数 ( 其 中 ，mean 为 平均 值 ， 
s d 为 标准 差 ) : 


qnorm(1-0.25,mean, sd) 


具体 代码 如 下 : 


> mean (cp$ 产 量 .人 台 .)->mymean 

>sd (cp$ 产 量 . 台 .)->mysd 
>qnorm(0.75,mean=mymean, sd=mysd) 
[1] 6815.85 


上 面 的 计算 结果 表明 ， 产 量 >6815.85 的 概率 为 25%， 即 上 a 分 位 点 的 公式 中 ，Z, 为 产 
量 6815.85， 上 a 分 位 点 的 a 为 0.25， 可 用 下 式 表 示 : 
P(x>2,)=p(x>6815.85)=0.25 


eh fp(e>2, 1-p<2,)a 


3. 绘 效果 图 

(1) 通过 下 面 R 语句 绘制 如 图 6-10 所 示 的 产品 产量 的 概率 密度 图 ，P(x>0.25) 为 图 6-10 
中 的 阴影 面积 (根据 积分 的 几何 意义 ， 累 积分 布 函数 F(x) 是 密度 函数 f(x) 的 积分 ， 图 中 若 
干 点 组 成 了 密度 函数 曲线 ， 而 曲线 与 蕊 轴 围 成 的 面积 则 为 累积 分 布 )。 


> mean (cpS$ 产 量 . 台 .) ->mymean 
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>sd(cp5$ 产 量 . 台 .)->mysd 

> cp$ 产 量 . 台 .->x 

>plot (x, dnorm (x, mymean,mysd)) 
>abline (v=6815.85) 


0.00030 


0.00020 


dnorm(x,mymean,mysd) 





0.00010 


4000 5000 6000 8 000 
图 6-10 产品 产量 的 上 a 分 位 点 


(2 ) 绘制 产品 产量 的 累积 分 布 图 ( 如 图 6-11 所 示 )。 可 绘制 一 个 产品 产量 的 上 a(a=0.25 ) 
分 位 点 和 下 a(a=0.25 ) 分 位 点 的 效果 图 。 绘 制 代 码 如 下 : 


> mean (cp$ 产 量 . 台 .)->mymean 
>sd (cp$ 产 量 .人 台 .)->mysd 

> cp$ 产 量 . 台 .->x 

>plot (x, pnorm(x,mymean,mysd)) 
>abline (v=6815.85) 

>abline (v=5213.85) 


pnorm(x,mymean,mysd) 





4000 5 000 6 000 7 000 8 000 
x 


图 6-11 产量 的 上 a 分 位 点 和 下 a 分 位 点 


分 析 绘 制图 6-10 与 图 6-11 所 示 的 结果 ， 能 较 直 观 地 验证 刚才 得 到 的 结论 : 上 a(a=0.25 ) 
分 位 点 表明 产量 >6815.85 的 概率 为 23%， 而 下 a(a=0.25 ) 分 位 点 表明 产量 <5213.9 的 概率 
为 25%。 


wwaibbt.com DODDDDDDOD 


第 6 章 ”统计 分 析 案 例 e 151 


6.3.6 ”频率 直方 图 
在 RR 语言 中 ,可 使 用 hist 语 句 ( 设 freq 参数 为 TRUE ) 生成 频率 直方 图 。 下 面 的 代码 
绘制 “平均 劳动 报酬 ”的 频率 直方 图 。 
> hist (jiuye[[" 平 均 劳动 报酬 "]]，,freq=TRUE) 
绘制 结果 如 图 6-12 所 示 。 
Histogram of jiuye[[“ 平 均 劳 动 报酬 ”]] 


Frequency 


一 一 一 = 
0 50 000 100 000 150 000 
jiuyel[* 平 均 劳 动 报酬 中 


图 6-12 平均 劳动 报酬 的 频率 直方 图 


6.3.7” 核 概率 密度 与 正 态 概率 分 布 图 


1. 核 概率 密度 与 正 态 概率 ， Histogram of jiuye[[“ 平 均 劳 动 报 酬 ]] 

下 面 考虑 让 “平均 劳动 报酬 ”的 
概率 密度 与 正 态 分 布 在 一 张 图 中 显示 
出 来 ， 这 样 就 能 更 好 地 看 清 数据 的 分 
布 情况 。 示 例 代码 如 下 : 

> hist (jiuye[[" 平 均 劳 动 报 酬 
"]],freq=FALSE) 

> lines (density (jiuye[[" 平 均 劳 
动 报酬 "] ] ) ,col="red") 

> x<-c(0:ceiling (max (jiuye[[" 
平均 劳动 报酬 "] ] ) ) ) 

> 
lines (x, dnorm (x, mean (jiuye[[" 平 均 
劳动 报酬 "] ]) ,sd (jiuye[[" 平 均 劳 动 报 酬 
"]])),col="blue") 


Density 








ee 
证 0 50 000 100 000 150 000 
绘制 结果 如 图 6-13 所 示 。 jiuye[[' 平 均 劳动 报酬 "]] 


闵 看 到 ,“ 
从 图 6-13 中 可 以 看 到 ， 平均 劳 图 6-13 “平均 劳动 报酬 的 概率 密度 与 正 态 分 布 
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动 报酬 ” 的 偏 度 大 于 0， 直 方 图 偏 左 ， 属 于 偏 态 分 布 。 


2. 经 验 累积 分 布 与 正 态 分 布 
经 验 分 布 函数 是 指 根据 样本 构造 的 概率 分 布 函数 。 设 ,x,…,x, 为 一 组 样本 ,定义 函数 


m(x) 表示 样本 中 小 于 或 者 等 于 x 的 样本 个 
数 ， 则 称 函 数 ecdftjiuye[[" 平 均 劳动 报酬 "]]) 





2 

为 样本 x1,x,,…,x, 的 经 验 分 布 函数 。 本 

下 面 的 代码 绘制 “平均 劳动 报酬 " 的 。 
经 验 累积 分 布 与 正 态 分 布 。 3 

> plot(ecdf(jiuye[[" 平 均 劳 动 报酬 名 0.4 
"]]),verticals=TRUE, do .p=FALSE) 

> lines(x,pnorm(x,mean (jiuyel[l[" 
平均 劳动 报酬 "1]) ,sd(jiuye[[I" 平 均 劳动 报酬 2 
"]])),col="blue") 

绘制 结果 如 图 6-14 所 示 。 其 中 , 光滑 。 “5 人 
的 线 为 累积 正 态 分 布 曲 线 ， 不 光滑 的 线 为 
经 验 累积 分 布 曲线 。 图 6-14 平均 劳动 报酬 的 经 验 累 积分 布 与 正 态 分 布 


6.3.8 ”正太 检验 与 分 布 拟 合 


1. QQ 

QQ 图 可 以 测试 数据 分 布 是 否 近似 为 某 1409000 
种 类 型 分 布 。 如 果 近 似 于 正 态 分 布 ， 则 数 
据点 接近 下 面 方程 表示 的 直线 。 

y=ox+tp 

其 中 ，o 为 标准 差 ，/ 为 平均 数 。 

比如 ， 可 用 它 来 测试 “平均 劳动 报 
酬 ” 分 布 是 否 近 似 于 正 态 分 布 。 在 及 语言 
中 ， 使 用 qqnorm 函数 来 画 数据 点 图 ， 使 用 20 000 mo 
qqline 函数 画 这 根 直 线 ， 如 图 6-15 所 示 。 -2 cl 1 2 3 


代码 如 下 : a Quantiles 
> qqnorm([" 平 均 劳动 报酬 "] ]) 全 


> qqline (jiuye[[" 平 均 劳动 报酬 "] ] ) 
从 图 6-15 来 看 ,平均 劳动 报酬 离 标准 正 态 分 布 还 是 有 差距 的 。 
相对 于 “平均 劳动 报酬 "， 产 品 产量 就 非常 接近 正 态 分 布 。 代 码 如 下 : 


> qqnorm (cp$ 产 量 . 台 .) 


Normal Q-Q Plot 


100 000 


60 000 


Sample Queantiles 
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> qqline (cp$ 产 量 . 台 .) 
绘制 出 的 QQ 图 如 图 6-16 所 示 。 


2. 正太 检验 与 分 布 拟 合 
(1) W 检验 。W 检验 可 以 检验 数据 是 否 符合 正 态 分 布 。 在 了 及 语言 中 使 用 函数 shapiro. 
test() 进行 正 态 W 检验 。 代 码 如 下 : 


> shapiro.test(cpS$ 产 量 . 台 .) 
Shapiro-Wilk normality test 

data: cp$ 产 量 . 台 . 

W = 0.9671, p-value = 0.7903 


Normal Q-Q plot 


加 7000 
上 述 代码 中 出 现 了 p 值 ， 其 作用 是 : 当 I 
p 值 小 于 某 个 显著 水 平 a (如 0.05) 时 ， 认 S 6oo0 
为 样本 不 是 来 自 于 正 态 分 布 的 总 体 。 此 例 中 ， 旬 
0.7903>0.05， 可 认为 产量 是 正 态 分 布 的 。 5 000 


(2 ) Kolmogorov-Smirnov 检验 。Kolmogorov- 
Smirnov 检验 用 于 检验 单一 样本 是 否 来 自 某 一 4000e 
特定 分 布 ， 比 如 检验 一 组 数据 是 否 为 正 态 分 
布 。 它 的 检验 方法 是 以 样本 数据 的 累计 频数 分 
布 与 特定 理论 分 布 做 比较 ， 若 两 者 间 的 差距 很 
小 ， 则 该 样本 取 自 某 特定 分 布 族 。 可 比较 一 个 频率 分 布 ftx) 与 理论 分 布 g(x), 或 者 两 个 观测 
值 分 布 来 完成 检验 。 

可 以 从 假设 检验 的 角度 来 理解 Kolmogorov-Smirnov 检验 ,假设 检验 使 用 了 一 种 类 似 于 
“ 反 证 法 ”的 推理 方法 ， 它 先 假设 总 体 中 的 某 项 假设 成 立 ， 计 算 其 会 导致 什么 结果 产生 。 若 
导致 不 合理 现象 发 生 ， 拒 绝 原先 的 假设 ; 若 没有 导致 不 合理 的 现象 发 生 ， 即 不 拒绝 原 假 设 ， 
从 而 接受 原 假设 。 

对 Kolmogorov-Smirnov 检验 而 言 ， 将 原 假设 50 确定 为 : 两 个 数据 分 布 一 致 或 者 数据 
符合 特定 理论 分 布 。 用 F0(x) 表示 分 布 函 数 ，Fn(x) 表示 一 组 随机 样本 的 累积 概率 函数 ， 设 
DD 为 F0(x) 与 Fn(x) 差距 的 最 大 值 ， 定 义 如 下 : 

D=max|Fn(x)-FO(x)| 
当 实 际 观测 值 D>D(n,a) 时 ， 则 拒绝 HO， 否 则 接受 H0 假设 。 
在 RR 语言 中 使 用 ks.test 函数 完成 正 态 性 检验 。 代 码 如 下 : 


ks.test(x, y, ...ralternative = cl("two.sided", "less", "greater"), 
exact = NULL) 


上 述 代 码 中 有 4 个 参数 ， 第 一 个 参数 x 为 观测 值 向 量 ; 第 二 个 参数 y 为 第 二 观测 值 向 量 
或 者 累计 分 布 函数 ， 或 者 一 个 真正 的 累积 分 布 函数 ， 如 pnorm， 只 对 连续 CDF 有 效 ; 第 三 
个 参数 指明 是 单 侧 检验 还 是 双 侧 检验 ; exact 参数 为 NULL 或 者 一 个 逻辑 值 ， 表 明 是 否 需 要 
计算 精确 的 P 值 。 比 如 : 要 生成 两 个 随机 的 正 态 分 布 ， 然 后 检验 这 两 个 分 布 是 否 是 同一 类 











0 
Theoretical Quantiles 


图 6-16 产品 产量 QQ 图 
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型 的 分 类 。 其 示例 代码 如 下 : 


> ks.test (rnorm(80),rnorm(40)) 
Two-sample Kolmogorov-Smirnov test 

data: rnorm(80) and rnorm(40) 

D = 0.125, p-value = 0.7874 

alternative hypothesis: two-sided 

从 上 述 代码 可 见 , 值 大 于 0.05， 不 拒绝 原 假设 ， 因 此 可 认为 这 两 个 分 布 是 同一 类 型 。 

Kolmogorov-Smirnov 检验 要 求 待 验 分 布 是 连续 的 ， 连 续 分 布 出 现 相 同 值 的 概率 为 0， 也 
就 是 说 ， 数 据 中 若 出 现 相 同 值 ， 则 连续 分 布 的 假设 不 成 立 。 


6.3.9 ”其 他 分 布 及 其 拟 合 


前 面 几 节 介绍 了 R 语言 函数 对 正 态 分 布 的 支持 〈 函数 名 除 前 级 外 为 norm )。 除 了 正 态 分 
布 外 ，R 语言 还 支持 对 其 他 数据 分 布 的 分 析 和 拟 合 ， 如 下 所 示 : 


指数 分 布 rexp(n, rate=1) 

gama 分 布 rgamma(n, shape, scale=1) 

泊 松 分 布 rpois(n, lambda) 

Weibull 分 布 rweibull(n, shape, scale=1) 
Cauchy 分 布 rcauchy(n, location=0, scale=1) 
beta 分 布 rbeta(n, shapel, shape2) 
S(tudent) 分 布 rt(n, df) 

Fisher-Snedecor rf(n, dfl, df2) 

Pearson rchisq(n, df) 

二 项 式 分 布 rbinom(n, size, prob) 

多 项 式 分 布 rmultinom(n, size, prob) 

几何 分 布 rgeom(n, prob) 

hypergeometric rhyper(nn, m, n, k) 

logistic rlogis(n, location=0, scale=1) 
lognormal rlnorm(n, meanlog=0, sdlog=1) 
negative binomial Inbinom(n, size, prob) 

uniform runif(n, min=0, max=1) 
Wilcoxon’s statistics rwilcox(nn, m, n), rsignrank(nn, n) 
对 这 些 函 数 的 调用 格式 是 : 前 级 + 函数 名 。 

前 级 规则 如 下 : 

密度 函数 : d 


累计 概率 分 布 函数 : p 
分 布 函数 的 反 函 数 : q 
相同 分 布 的 随机 数 : r 


wwaibbt.com DOOOODODOD 


第 6 章 ”统计 分 析 案 例 # 155 


6.4 小结 


对 于 统计 分 析 来 说 ， 最 好 的 学 习 方式 就 是 实践 ， 光 看 理论 比较 难于 理解 。 本 章 以 实例 的 
形式 分 析 了 正 态 分 布 函数 、 峰 度 系数 、 累 积分 布 概率 、 概 率 密度 函数 及 曲线 、 分 位 点 、 正 太 
检验 与 分 布 拟 合 等 数据 统计 指标 。 在 数据 分 布 模型 中 ， 除 了 正 态 分 布 ， 还 有 很 多 分 布 模型 ， 
在 本 章 结尾 处 概述 了 R 语言 提供 的 其 他 分 布 分 析 函 数 。 本 章 介绍 的 数据 分 布 分 析 与 第 5 章 
介绍 的 回归 分 析 构 成 了 数据 分 析 的 基础 ， 也 是 数据 分 析 中 常用 的 方法 。 


思考 题 


(1) 下载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 对 美国 地 震 台 网 数据 中 震 深 
Depth 进行 分 析 ， 绘 制 累积 分 布 概率 的 散 点 图 。 

(2 ) 下 载 本 书 例子 中 的 美国 地 震 台 数据 earthquakes.csv， 对 美国 地 震 台 网 数据 中 震级 
Magnitude 进行 分 析 ， 分 析 概 率 密度 。 

(3 ) 下 载 本 书 例子 中 的 全 国 就 业 调查 情况 数据 youxiangz.csv， 分 析 “ 平 均 劳动 报酬 ” 
的 正 态 分 布 函 数 、 峰 度 系数 、 累 积分 布 概率 、 概 率 密度 函数 及 曲线 、 频 率直 方 图 。 
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自古 圣贤 之 言 学 也 ， 戌 以 躬 行 实践 
为 先 ， 识 见 言论 次 之 。 
一 一 林 硕 元 
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学 习 就 是 在 不 断 重复 的 工作 中 使 自己 的 能 力 不 断 增强 或 改进 ， 在 下 一 次 执行 相同 或 类 似 
的 任务 时 ， 会 比 原来 做 得 更 好 或 效率 更 高 。 机 器 学 习 研 究 指 的 是 用 计算 机 来 模拟 或 实现 人 类 
学 习 活动 ， 研 究 如 何 使 机 器 通过 识别 和 利用 现 有 的 知识 来 获取 新 知识 和 新 技能 。 机 句 学 习 的 
内 部 表现 为 从 未 知 到 已 知 这 样 一 个 知识 增长 过 程 ， 其 外 部 表现 为 某 些 性 能 和 适应 性 得 到 系统 
的 改善 。 机 器 学 习 形 成 了 一 套 算法 理论 ， 这 些 算 法 使 系统 能 完成 原来 不 能 完成 的 任务 ， 或 者 
能 更 好 地 完成 原来 可 以 完成 的 任务 。 


7.1 神经 网 络 


1. 神经 网 络 基本 原理 

人 脑 由 上 千 亿 条 神经 组 成 ， 每 条 神经 平均 又 会 连接 到 几 千 条 其 他 的 神经 ， 通 过 这 种 连接 
方式 ， 神 经 可 以 收发 不 同 数量 的 能 量 。 神 经 一 个 非常 重要 的 功能 就 是 ， 它 们 对 能 量 的 接收 并 
不 是 立即 作出 响应 ， 而 是 将 它们 累加 起 来 ， 当 这 个 累加 的 总 和 达到 某 个 临界 冰 值 时 ， 它 们 才 
将 自己 的 那 部 分 能 量 发 送 给 其 他 的 神经 。 大 脑 通过 调节 这 些 连 接 的 数目 和 强度 来 进行 学 习 。 

如 图 7-1 所 示 是 一 个 神经 元 的 模型 ， 神 经 网 络 复杂 多 样 ， 由 大 量 与 该 图 类 似 的 神经 元 及 
突 触 组 成 。 神 经 科学 界 的 共识 是 ， 人 类 大 脑 包含 1000 亿 个 神经 元 ， 每 个 神经 元 有 1 万 个 突 
触 ， 数 量 巨大 ， 组 合 方式 复杂 ， 联 系 广泛 。 也 就 是 说 ， 突 触 传递 的 机 制 复杂 。 

现在 已 经 发 现 和 阐明 的 突 触 传递 机 制 有 : 突 触 后 兴奋 、 突 触 后 抑制 、 突 触 前 抑制 、 突 触 
前 兴奋 ， 以 及 远程 抑制 等 。 在 突 触 传递 机 制 中 ， 释 放 神 经 递 质 是 实现 突 触 传递 机 能 的 中 心 环 
节 ， 而 不 同 的 神经 递 质 有 着 不 同 的 作用 性 质 和 特点 。 

人 工 神 经 网 络 (ANN ) 是 一 种 模仿 生物 神经 网 络 结构 和 功能 的 数学 模型 ， 它 使 用 大 量 
的 人 工 神经 元 连接 来 进行 计算 ， 该 网 络 由 大 量 的 “神经 元 ”相互 连接 构成 ， 每 个 “神经 元 ” 
代表 一 种 特定 的 输出 函数 。 又 称 为 激励 函数 。 每 两 个 “神经 元 ” 间 的 连接 代表 一 个 通过 该 连 
接 信号 的 加 权 值 ， 称 之 为 权重 ， 这 相当 于 人 工 神经 网 络 的 记忆 。 网 络 的 输出 则 根据 网 络 的 连 
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接 规 则 来 确定 ， 输 出 因 权 重 值 和 激励 函数 的 不 同 而 不 同 。 人 工 神经 网 络 可 理解 为 对 自然 界 某 
种 算法 或 者 函数 的 通 近 。 





图 7-1 大 脑 神经 元 


如 图 7-2 所 示 是 一 个 简单 的 人 工 神经 元 示意 图 。 x*(?) 
其 中 ，xi(?) 等 数据 为 这 个 神经 元 的 输入 ， 代 表 其 他 
神经 元 或 外 界 对 该 神经 元 的 输入 ; wi 等 数据 为 这 
个 神经 元 的 权重 ,wu 2 wj，* xz(0 是 对 输入 的 求 和 ， 
为 诱导 局 部 域 ， ?7 天 Ku(D) 为 输出 函数 ， 也 称 激励 函 
数 ， 是 对 诱导 局 部 域 的 再 加 工 ， 也 是 最 终 的 输出 。 


2. 神经 网 络 发 展 历史 

20 世纪 40 年 代 ， 心 理学 家 Mcculloch 和 数学 
家 Pitts 联合 提出 了 兴奋 与 抑制 型 神经 元 模型 ， 另 图 7-2 人工 神经 元 
外 ，Hebb 提出 了 神经 元 连接 强度 的 修改 规则 ; 到 
20 世纪 五 六 十 年 代 ， 该 领域 具有 代表 性 的 工作 是 Rosenblatt 的 感知 机 和 Widrow 的 自 适 应 性 
元 件 Adaline; 1969 年 ，Minsky 和 Papert 合作 出 版 了 颇 有 影响 力 的 著作 《感知 器 》 书 中 暗 
示 感 知 器 具有 严重 局 限 ， 得 出 了 消极 悲观 的 论点 ， 使 感知 器 与 连接 主义 遭 到 冷落 ， 而 感知 器 
是 神经 网 络 的 一 种 重要 形式 。 在 20 世纪 70 年 代 ， 人 工 神 经 网 络 的 研究 处 于 低潮 ，20 世纪 
70 年 代 末 ， 传 统 的 汉 “。 诺 依 曼 (Von Neumann ) 数字 计算 机 在 模拟 视听 觉 的 人 工 智 能 方面 
遇 到 了 物理 上 不 可 逾越 的 极限 。 但 与 此 同时 ，Rumelhart、Mecclelland 和 Hopfield 等 人 在 神 
经 网 络 领域 取得 了 突破 性 进展 ， 神 经 网 络 的 热潮 再 次 掀起 。 


yp(D) 





7.1.1 ”Rosenblatt 感知 器 


Rosenblatt 感知 器 是 由 美国 计算 机 科学 家 罗 森 布 拉 特 (下 .Rosenblatt ) 于 1957 年 提出 的 。 
F.Rosenblatt 经 过 证 明 得 出 结论 ， 如 果 两 类 模式 是 线性 可 分 的 ( 指 存在 一 个 超 平面 将 它们 分 
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开 )， 则 算法 一 定 收敛 。Rosenblatt 感知 器 特别 适用 于 简单 的 模式 分 类 问题 ， 也 可 用 于 基于 
模式 分 类 的 学 习 控 制 。 

Rosenblatt 感知 器 建立 在 一 个 线性 神经 元 之 上 ， 神 经 元 模型 的 求 和 节点 计算 作用 于 突 触 
输入 的 线性 组 合 ， 同 时 结合 外 部 作用 的 偏 置 ， 对 若干 个 突 触 的 输入 项 求 和 后 进行 调节 。 


1. 基本 计算 过 程 
Rosenblatt 感知 器 的 基本 计算 步骤 如 下 : 
(1 ) 将 数据 作为 输入 送 入 神经 元 。 
(2 ) 通过 权 值 和 输入 共同 计算 诱导 局 部 域 ,诱导 局 部 域 是 指 求 和 节点 计算 得 到 的 结果 ， 
计算 公式 如 下 : 
v=Y wx+b 


(3 ) 以 硬 限 幅 器 为 输出 函数 ， 诱导 局 部 域 被 送 入 硬 限 幅 器 ， 形成 最 终 的 输出 硬 限 幅 器 的 
工作 原理 如 下 。 
硬 限 幅 器 输入 为 正 时 ， 神 经 元 输出 +1， 反 之 输出 -1。 计 算 公式 为 


1; yv 三 0 
fw { 


; v<0 
硬 限 幅 器 函数 图 像 如 图 7-3 所 示 。 











图 7-3 硬 限 幅 器 函数 图 像 


从 图 7-3 可 以 看 出 ， 在 最 终 的 计算 结果 中 ， 把 外 部 的 输入 x, x2,…, x 输出 为 两 类 ， 分 类 
规则 是 : 如 果 输 出 函数 是 +1， 则 为 类 1; 如 果 输 出 为 -1， 则 为 类 2。 感 知 器 被 超 平面 分 为 
两 类 ， 这 个 超 平面 为 : 


SY wn +b=0 
2. 权 值 修正 
在 上 述 计算 过 程 中 ,第 二 步 涉 及 一 个 重要 的 参数 ， 即 权 值 。 如 何 确定 权 值 才能 保证 输出 
能 被 正确 地 分 类 到 +1 和 -1 呢 ? 
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首先 ,会 产生 一 个 初始 权 值 ， 由 初始 权 值 计算 得 到 的 输出 结果 肯定 会 有 误差 。 接 着 ,要 
想 办 法 让 误差 减少 ， 这 个 过 程 就 是 权 值 w 修正 的 过 程 。 

新 的 问题 产生 了 ， 哪 些 数据 用 来 输入 呢 ? 在 用 神经 网 络 进行 机 器 学 习 时 ， 输 入 数据 是 确 
定 的 ， 但 输出 结果 是 未 知 的 ， 这 些 输出 结果 正 是 我 们 需要 用 神经 网 络 预测 的 结果 。 解 决 这 个 
问题 的 关键 在 于 样本 。 样 本 是 研究 中 实际 观测 或 调查 的 一 部 分 ， 研 究 对 象 的 全 部 称 为 总 体 ， 
样本 必须 能 够 正确 反映 总 体 情 况 。 所 以 ， 首 先 要 用 样本 将 神经 网 络 训练 好 ， 在 确定 权 值 后 ， 
再 用 训练 好 的 神经 网 络 对 未 知 输入 所 属 的 输出 进行 预测 。 权 值 修正 方法 分 为 单 样本 修正 算法 
和 批量 修正 算法 。 

单 样本 修正 算法 的 步骤 为 : 神经 网 络 每 次 读 人 一 个 样本 ， 进 行 修正 ， 样 本 读 取 完 毕 ， 修 
正 过 程 结 束 。 算 法 过 程 描述 如 下 : 

(1 ) 设置 如 下 参数 : 

w(0)=0 
Xx(n)=(+1, XA(n),, Xn)) 
w(n)=(b, wi(n),*, wn(n)) 

其 中 ,5 为 偏 置 ,x 为 输入 向 量 ，w 为 权 值 。 

(2 ) 感知 器 激活 。 

对 于 每 个 时 间 步 上， 通过 输入 向 量 x(n) 和 期 望 输出 d(n) 激活 感知 器 。 

(3 ) 计算 感知 器 的 输出 。 

y(n)=sgn(w (n)x(n)) 
i | v 宇 0 
-1l],， v<0 

其 中 ,为 时 间 步 ，x(n) 为 输入 向 量 ，w(n) 为 权 值 向 量 ，sgn 为 硬 限 幅 函数 ,vv 为 硬 限 
幅 函 数 的 输入 值 。 

(4) 更 新 感知 器 的 权 值 向 量 。 

wnt1)=w(n)+n(A(n) -y(n))x(n) 
0<n<1 
+1, x(n) 属于 第 1 类 
A 并 了 尝 2 区 
其 中 , 对 为 学 习 速 率 (调整 更 新 的 步伐 )。 
下 面 用 神经 网 络 学 习 逻 辑 与 的 运算 ， 用 Python 实现 上 述 算法 。 代 码 如 下 : 


#!/usr/bin/env Python 

# ~*= Coding: utf=8 =*= 

#code:myhaspl@qq.com 

#7-1.py 

import numpy as np 

b=0 

a=0.5 

= np.array([[b,1,1), [bi.0], [B,0,0], tbr0, L111) 
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d =np.array([1,1,0,1]) 
w=np.array ([b,0,0]) 


def sgn(v): 
if v>=0: 
return 1 
else: 
return 0 


def comy (myw,myx): 
return sgnl(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
return oldw+ar* (myd-comy (oldw,myx))*myx 
i=0 
for Xn dn Xs 
w=neww (w,d[i],xn,a) 
i+=1] 
for xn in x: 
print "%d and %d => %d "%(xn[1],xn[2],comy (w,xn)) 


如 下 程序 输出 结果 正确 。 
1 and 1 =>1 
1 and 0 =>1 
0 and 0 => 0 
0 and 1 => 1 


现在 来 测试 一 个 更 复杂 的 例子 。 针 对 下 面 两 类 函数 训练 神经 网 络 ， 将 一 组 (x, y) 值 划分 
为 以 下 两 类 函数 之 一 : 

口 2x+1=y 为 第 1 类 。 

口 7x+1=y 为 第 2 类。 

代码 如 下 : 


#!/usr/bin/env python 
# -*- coding: utf-8 -*- 
#7-2.py 
import numpy as np 
b=1 
a=0.3 
x=npaarray(l [by Li3]sr [by2,3], [B18) [br2s15]s [by 3,7] 7[br4r29])) 
d=np.array ([l,l,=1, =1,Tr=1]) 
w=np.array ([b,0,0]) 
def sgn(v) : 
if v>=0: 
return 1 
else: 
return -1 
def comy (myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
print comy (oldw,myx) 
return oldwta* (myd-comy (oldw,myx) ) *myx 


wwaibbt.com DODOODD 


第 7 章 ”机 器 学 习 算 法 9 163 


£0 ‘Xn LN XK; 

print xn 

w=neww (w, d[i],xn,a) 

i+=1 

print w 
EGE xn in x: 

print "“%d %d => %d "%(xn[1],xn[2],comy (w,xn)) 
test=np.array([b,9,19]) 
print "%d %d => %d "%(test[1],test[2],comy(w,test)) 
test=np.array ([b,9,64]) 
print "“%d %d => %d "%(test[l1l],test[2],comy(w,test)) 


在 上 面 代码 中 ,使 用 了 [1,3]、[2,3]、[1,8]、[2,15]、[3,7]、[4,29] 这 几 组 数据 对 该 神经 
网 络 进行 训练 。 运 行 该 程序 ， 对 从 未 在 样本 中 出 现 过 的 数据 [9,19]、[9,64] 进行 分 类 。 通 过 
前 面 的 函数 定义 可 以 知道 ，[9,19] 属于 第 1 类 ，[9,64] 属于 第 2 类 。 如 下 所 示 : 

9 19 => 1 

9 64 => -1 

接着 输出 训练 之 后 的 神经 网 络 权 值 参 数 ， 代 码 如 下 : 


>>> vw 
arvaye[l ts : lye |] 


根据 上 述 参数 ， 可 以 确定 神经 网 络 的 分 类 线 方程 为 : 

1.2x-0.6y+1=0 过 1.2x+1=0.6y=>y ~ 2x+1.68 

那么 对 于 不 完全 符合 上 述 两 个 函数 定义 的 数据 ， 
通过 训练 好 的 神经 网 络 也 能 近似 地 划分 到 上 述 函数 中 。 
试 着 将 前 面 的 代码 修改 一 下 ， 加 入 两 个 不 太 规则 的 测 
试 数据 点 [9,16]、[9,60]， 同 时 加 入 绘图 命令 ， 绘 制 
数据 点 ， 然 后 使 用 上 面 计 算 的 分 类 线 方 程 绘制 分 类 线 
(这 样 能 直观 地 观察 结果 )， 如 图 7-4 所 示 。 

在 如 图 7-4 所 示 的 样本 数据 点 中 ， 大 的 圆 点 属于 
第 2 类 ， 输 出 为 -1， 星 号 属于 第 1 类 ， 输 出 为 1; 在 
测试 数据 点 中 ， 叉 号 属于 第 2 类， 输出 为 -1， 小 点 属 “图 7-4 神经 网 络 分 类 ( 附 彩 图 ) 
于 第 1 类 , 输出 为 1。 中 间 的 虚线 就 是 分 类 线 ， 这 条 . 
分 类 线 把 坐标 系 内 的 点 分 成 为 两 类 ， 分 类 线 以 上 的 点 输出 为 -1， 以 下 的 点 输出 为 1， 训练 
好 的 神经 网 络 通过 这 条 分 类 线 决 定 如 何 对 输入 所 属 的 分 类 进行 预测 。 

修改 后 的 Python 代码 如 下 : 


#!/usr/bin/env Python 
一 夫 = Sodingr Wtf-8 -~*~ 
#7=3 .py 

import numpy as np 
import pylab as pl 

b=1 

a=0 .3 
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x=np.array ([[b,1,3], [b,2,3], [b,1,8], [b,2,15], [b,3,7], [b,4,29]]) 
d=np.array([1;,1,-1,-1,1,-1]) 
w=np.array ([b,0,0]) 
def sgn(v): 
if v>=0: 
return 1 
else: 
return -1 
def comy (myw,myx): 
return sgnl(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
return oldwta* (myd-comy (oldw,myx)) *myx 
i=0 
to xn dn Ks 
w=neww (w,d[i],xn,a) 


i+=1 
myx=x[:,1] 
myy=x[:,2] 


pl.subplot (111) 

x max=np.max (myx)+15 

x min=np.min (myx)-5 
y_max=np.max (myy) +50 
y_min=np.min (myy) -5 
pl.xlabel (u"x") 

pl.xlim(x min, x max) 
pl.ylabel (u"y") 

pl.ylim(ly min, y_max) 

for i in xrange(0,1en(d)): 


if dl[i]>0: 
pl.plot (myx[i], myy[li], 'r*') 
else: 
pl.plot (myx[i], myy[i], 'ro'’) 
# 绘 制 测试 点 


test=np.array ([b,9,19]) 
if comy(w,test)>0: 

plplot (test[l1],test(2], ‘“b.") 
else: 

pl.plot (test[1],test[2],'bx') 
test=np.array ([b,9,64]) 
if comy (w,test)>0: 

plplot (test[1] ,test[2]1, bw) 
else: 

pl.plot (test[1],test[2],'bx') 
test=np.array([b,9,16]) 
if comy (w,test)>0: 

pl.plot (test[1],test[2], 'b.') 
else: 

pl.plot (test[1],test[2],'bx') 
test=np.array([b,9,60]) 
if comy(w,test)>0: 

pl.plot (test[1],test[2], 'b.') 
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else: 

pl.plot (test[1],test[2],'bx') 
# 绘 制 分 类 线 
testx=np.array (range (0,20)) 
testy=testx*2+1 .68 
pl.plot (testx,testy, 'g-——"') 
pl1.show () 


上 面 给 出 的 是 单 样本 感知 器 算法 ， 在 这 种 算法 中 ， 每 次 迭代 时 ， 只 考虑 了 用 一 个 训练 模 
式 修 正 权 矢量 。 实 际 上 ， 可 以 将 几 个 训练 模式 一 起 考虑 ， 而 批量 修正 算法 则 考虑 了 使 用 代价 
函数 来 进行 分 类 误差 率 的 控制 。 批 量 修正 算法 要 对 样本 进行 多 次 读 取 ， 直 到 神经 网 络 的 误差 
率 降 到 合适 的 程度 才 停止 样本 的 训练 ， 这 是 它 与 单 样本 修正 算法 本 质 的 区 别 。 算 法 中 的 误差 
率 使 用 最 直观 的 被 错 分 类 的 样本 数量 准则 。 

批量 修正 算法 的 核心 在 于 其 权 值 更 新 策略 。 批 量 修正 算法 采用 的 是 梯度 下 降 原理 ， 其 计 
算 公 式 为 : 

WEHD)=w(D-1CD VIWw(A)) 
其 中 ，n(h) 称 为 学 习 率 ，Vv(w( 昌 ) 为 梯度 ， 计 算 方法 为 : 
VJ(w(k)) = 2 (~») 


pet 


其 中 ， 
Y= 被 错 分 类 的 样本 输出 值 集合 
最 终 得 出 权 值 更 新 策略 为 : 
wk+D)= WD +n D dry (7-1) 


PE 


在 上 式 中 ，4 为 样本 实际 输出 值 ，y 为 被 错 分 类 的 样本 的 输出 值 。 
具体 算法 过 程 如 下 : 

(1 ) 初始 化 权 值 、 学 习 率 ， 以 及 期 望 误 差 率 。 

(2 ) 读 取 所 有 样本 数据 。 

(3 ) 依次 对 样本 进行 训练 ， 更 新 权 值 ， 其 更 新 策略 如 上 式 所 示 。 


(4) 检查 (中 马 d*Y 是 否 小 于 指定 误差 率 ， 或 者 训练 次 数 是 否 已 到 ， 如 果 没 有 达到 误 


差 率 的 要 求 且 训 练 次 数 未 到 ， 转 到 第 (2 ) 步 执行 。 
继续 使 用 单 样本 修正 法 的 样本 ,将 一 组 (x, y) 的 输入 划分 为 以 下 两 类 函数 之 一 : 
口 2x+1=y 为 第 1 类 。 
口 7x+1=y 为 第 2 类 。 
下 面 用 Python 实现 这 个 神经 网 络 ， 最 后 用 [9,19] 和 [3,22] 对 训练 成 功 后 的 网 络 进行 测试 。 
#!/usr/bin/env Python 
# -*- C06ding: Utf-8 一 “一 


#code:myhaspl@qq.com 
#7-4.py 
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import numpy as np 
b=1 
a=0.5 
= barray (Ellrl3lrll231r [llli8]s [i 27151]) 
d =np.array([1,1,-1,-1]) 
w=np.array([b,0,0]) 
wucha=0 
ddcount=50 
def sgn(v) : 
二 VSO: 
return 1 
else: 
return -1 
def comy (myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def tiduxz (myw,myx,mya): 
i=0 
sum x=np.array([0,0,0]) 
for xn in myx: 
if comy (myw xn) !=d[i]: 
sum x+=d[i]*xn 
i+=1 
return mya*sum x 
i=0 
while True: 
tdxz=tiduxz (w,x,a) 
Ww=w+tdxz 
i=i+1 
if abs (tdxz.sum() )<=wucha or i>=ddcount:break 
test=np.array ([1,9,19]) 
print "%d %d => %d "%(test[1],test[2],comy (w,test)) 
test=np.array([1,3,22]) 
print "%d %d => %d "%(test[l1],test[2],comy(w,test)) 


运行 程序 后 可 发 现 ， 训 练 效 果 很 好 ， 测 试 数据 被 正确 分 类 。 


19 = 1 
水 22 i 


3. LMS 算法 

LMS 算法 全 称 为 least mean square 算法 ， 中 文 是 最 小 均 方 算法 。 在 ANN 领域 内 ， 均 方 
误差 是 指 样本 预测 输出 值 与 实际 输出 值 之 差 平 方 的 期 望 值 ， 记 为 MSE。 设 observed 为 样本 
真 值 ，predicted 为 样本 预测 值 ， 计 算 公 式 如 下 : 


MSE = 1 > (observed, — predicted, ) 
nil 


LMS 算法 的 策略 是 使 均 方 误差 最 小 ， 该 算法 运行 在 一 个 线性 神经 元 上 ， 使 用 的 是 批量 
修正 算法 ， 其 误差 信号 为 : 


e(n)=d(n)-X'(n)py(n) 
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然后 在 误差 信号 的 基础 上 计算 梯度 向 量 ， 公 式 如 下 : 
Oo(n) 
Op(n) 

最 后 ， 生 成 权 值 调整 方案 。 公 式 如 下 : 

忆 (n+1)= 逆 (n)+nX(n)e(n) 
在 上 式 中 ,7 表示 学 习 率 ， 该 值 越 小 ，LMS 算法 执行 得 越 精确 ， 但 同时 算法 收敛 速度 
越 慢 。 
下 面 使 用 LMS 算法 实现 逻辑 与 运算 ， 将 学 习 率 设 为 0.1。 代 码 如 下 : 


#!/usr/bin/env Python 
#-*— coding: utf-8 一 * 一 
#code:myhaspl@qq.com 
#7-5.py 

import numpy as np 

b=1 

a=0.1 

x = np. drzay(t [T1111), Tl ON Gy:O LI; [had 0 
d =np.array([1,1,1,0]) 
w=np.array([b,0,0]) 
expect e=0.005 





=-X(n)e(n) 


maxtrycount=20 


def sgn(v) : 
if v>0: 
return 1 
else: 
return 0 


def get v(myw,myx): 
return sgn (np,dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye=get el(oldw,myx,myd) 
return (oldwta*mye*myx,mye) 
def get el(myw,myx,myd): 
return myd-get _v (myw,myx) 
mycount=0 
while True: 
mye=0 
i=0 
for Xr Ln 训 和 
we=neww (w,d[i],xn,a) 
i+=1 
mye+=pow (e, 2) 
mye/=float (i) 
mycount+=1 
Print u" 第 %d 次 调整 后 的 权 值 : "%mycount 
print w 
print un 误差 : $f"%mye 
if mye<expect e or mycount>maxtrycount:break 
for xn in x: 
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print "“%d and %d => %d "%(xn[1],xn[2],get v(w,xn)) 


下 面 是 程序 的 运行 结果 ， 可 以 看 出 ， 通 过 13 次 和 迭代， 训练 结束 ， 对 测试 值 的 输出 正确 。 


第 12 次 调整 后 的 权 值 : 
[=0.1 0.1 0.1] 
误差 : 0.500000 

第 13 次 调整 后 的 权 值 : 
[-0.1 0.1 0.1] 
误差 : 0.000000 

1 and 1 =>1 


1 and 0 =>1 
0 and 1 => 1 
0 and 0 => 0 
>>> 


另外 ， 可 应 用 LMS 算法 实现 比 逻 辑 与 更 复杂 的 算法 ， 比 如 : 在 输入 矩阵 中 ， 如 果 x 
向 量 的 整除 结果 为 6， 则 表示 为 一 类 ， 输 出 为 1; 若 结果 为 3 则 是 另 一 类 ， 输 出 为 -1。 代 
人 码 如 下 : 


#!/usr/bin/env python 
#=*= coding utf=8 =*= 
#code:myhaspl@qq.com 
#7-6.py 
import numpy as np 
b=1 
a=0.1 
x = npearray (Lll,1,6] [1,2,121, [lr3,9] [1.8，24] ]) 
Q =np.array([1,1,-1,-1]) 
w=np.array([b,0,0]) 
expect e=0.005 
maxtrycount=20 
def sgn(v): 
4f F508 
return 1 
else: 
return -1 
def get v(myw,myx): 
return sgnl(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye=get_e (oldw,myx,myd) 
return (oldwta*mye*myx,mye) 
def get el(myw,myx,myd): 
return myd-get v(myw,myx) 
mycount=0 
while True: 
mye=0 
i=0 
for xn in x: 
we=neww (w,d[i],xn,a) 
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i+=1 
mye+=pow (e, 2) 
mye/=float (i) 
mycount+=1 
print "第 %qd 次 调整 后 的 权 值 : "%mycount 
print w 
print u" 误 差 : S$f"%mye 
if abs (mye) <expect e or mycount>maxtrycount:break 
for wn in Ks 
print "%d %d => gd "%(xn[1],xn[2],get vi(w,xn)) 
test=np.array ([1,9,27]) 


print "%d %d => %d "%(test[1],test[2],get v(w,test)) 
test=np.array([1,11,66]) 
print "%d $d => %d "%(test[1],test[2],get v(w,test)) 


通过 9 次 训练 后 ， 误 差 率 为 0， 用 样本 数据 和 测试 数据 进行 验证 ， 准 确 无 误 。 下 面 是 执 


第 8 次 调整 后 的 权 值 : 
[ 1.4 -2.8 0.6] 
误差 : 3.000000 
第 9 次 调整 后 的 权 值 : 
[ 1.4 -2.8 0.6] 
误差 : 0.000000 


1 6 => 1 

2 12 =>1 

号 9 => -1 

8 24 => -1 
9 27 => -1 
rh 66 => 1 


4. Rosenblatt 感知 器 的 局 限 性 
不 是 所 有 的 数据 都 能 被 Rosenblatt 感知 器 正确 分 类 。 比 如 说 下 面 的 样本 数据 : 


器 至 nparray([llil el [lsarL2y tis39 Lr3r21] ;5 [ds216]5 TL S3151]") d =nNp. 
array ([i El,=1r1;=1]) 


应 用 LMS 算法 对 这 些 数据 训练 200 次 ,效果 仍 非 常 差 ， 样本 数据 和 测试 数据 都 无 法 正 
确 分 类 。 如 下 所 示 : 


第 199 次 调整 后 的 权 值 : 
[18.5 17.2 ‘0.81 
误差 : 2.666667 

第 200 次 调整 后 的 权 值 : 
[ 18. -17.4 -0.8] 
误差 : 2.666667 

第 201 次 调整 后 的 权 值 : 
[ 18.4 -16.8 1.8] 
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误差 : 2.666667 
玉 并 
12 => -1 
9 => -1 
21 => 1 
16 => 1 
15 => -1 
27 => -1 
1 66 => -1 


为 什么 会 出 现 这 种 情况 ? 试 着 修改 7-6.py 的 样本 数据 ， 同 时 绘制 包括 这 些 点 的 散 点 图 。 


#!/usr/bin/env python 

#-*- coding: utf-8 -*- 
#code:myhaspl@qq.com 

#7-7 .py 

import numpy as np 

import pylab as pl 

b=1 

a=0.1 

二 mp dea (lilly lBi2s lids [L218 [LS 151]) 
d =npasarray ([1;1,-1=1,1,-1]) 
w=np.array ([b,0,0]) 

expect e=0.005 


AD mwWND mw P 


maxtrycount=200 
def sgn(v) : 
下 V>O: 
return 1 
else: 
returr = 
def get v(myw,myx): 
return sgnl(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye=get el(oldw,myx,myd) 
return (oldwta*mye*myx,mye) 
def get el(myw,myx,myd): 
return myd-get v(myw,myx) 
mycount=0 
while True: 
mye=0 
i=0 
for xn in x: 
we=neww (w, d[i],xn,a) 
i+=1 
mye+=pow (e, 2) 
mye/=float (i) 
mycount+=1 
print u" 第 %d 次 调整 后 的 权 值 : "$mycount 
print w 
print u" 误 差 : $f"%mye 
if abs (mye) <expect e or mycount>maxtrycount:break 
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for xn in x: 
print "%d sdq => %d "%(xn[1],xn[2],get vi(w,xn)) 
test=np.array ([1,9,27]) 


print "%d %d => %d "%(test[1];test[2],get vi/(w,test)) 
test=np.array ({1,11,66]) 
print "%d %d => %d "%(test[1],test[2],get v(w,test)) 


myx=x[:,1] 

myy=x[:,2] 

pl.subplot (111) 

x_ max=np.max (myx)+10 
x min=np.min (myx)-5 
y_max=np.max (myy) +50 
y_min=np.min (myy) -5 
pl.xlabel (u"x") 
pl.xlim(x min, x max) 
pl.ylabel (u"y") 








pl.yliml(y min, y_max) 70 
# 绘 制 样本 点 60 
for i in xrange(0,LIen(d)) : 50 
i£ dL]>0: 
pL.PLot (myx{i], myy[li]y, ve*y 四 40 
else: 30 
pl.plot (myx[i], myy[i], 'ro') 
# 绘 制 测试 点 20 
test=np.array ([1,9,27]) 10 
pl.plot (test[1],test[2], 'bx') pe 5 
test=np.array ([1,11,66]) 2 0 2 本 6 8 10 12 
pl.plot (test[1],test[2], ‘bx') 
pl.show() 图 7-5 散 点 图 


在 如 图 7-5 所 示 的 散 点 图 中 ， 实 心 圆圈 和 星 号 是 两 类 不 同 的 样本 点 ， 叉 号 为 测试 点 。 在 
这 张 图 中 ， 无 法 画 出 一 条 线 来 将 两 类 点 分 开 ， 只 有 曲线 才能 将 它们 分 开 ， 但 线性 方程 根本 不 
可 能 产生 的 曲线 ， 因 此 Rosenblatt 感知 器 不 适用 于 非 线性 分 类 。 

5. LMS 的 学 习 率 退火 算法 

模拟 退火 算法 来 源 于 固体 退火 原理 。 退 火 就 是 将 材料 加 热 后 再 经 特定 速率 冷却 ， 目 的 是 
增 大 晶 粒 的 体积 ， 并且 减少 唱 格 中 的 缺陷 。 材 料 中 的 原子 原来 会 停留 在 使 内 能 有 局 部 最 小 值 
的 位 置 ， 加 热 使 能 量变 大 ， 原 子 会 离开 原来 位 置 ， 而 随机 在 其 他 位 置 中 移动 。 退 火 冷 却 时 速 
度 较 慢 ， 徐 徐 冷 却 时 粒子 渐 趋 有 序 ， 原 子 有 可 能 找到 内 能 比 原先 更 低 的 位 置 ， 最 后 在 常温 时 
达到 基态 ， 内 能 减 为 最 小 。 

根据 Metropolis 准则 ， 粒 子 在 温度 了 时 趋 于 平 衔 的 概率 为 e-AZB/(kmD， 其 中 五 为 温度 了 
时 的 内 能 ，AE 为 其 改变 量 , 大 为 Boltzmann 常数 。 用 固体 退火 模拟 组 合 优化 问题 ， 将 内 能 
巨 模拟 为 目标 函数 值 温度 了 演化 成 控制 参数 :， 即 得 到 解 组 合 优化 问题 的 模拟 退火 算法 : 
由 初始 解 i 和 控制 参数 初 值 :开始 ， 对 当前 解 重复 进行 “产生 新 解 一 计算 目标 函数 差 一 接受 
或 舍弃 ”的 迭代 ， 并 逐步 衰减 上 + 值 ， 算 法 终止 时 的 当前 解 即 为 所 得 近似 最 优 解 ， 这 是 基于 蒙 
特 卡 罗 和 迭代 求解 法 的 一 种 启发 式 随机 搜索 过 程 。 退 火 过 程 由 冷却 进度 表 控制 ， 包 括 控制 参数 
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的 初 值 :及 其 衰减 因子 At、 每 个 1 值 时 的 迭代 次 数 工 和 停止 条 件 5。 
针对 学 习 率 不 变化 、 收 敛 速度 较 慢 的 情况 ， 即 可 使 用 退火 算法 方案 ， 让 学 习 率 随时 间 而 
变化 。 学 习 率 计算 公式 为 : 


= 
WO 


下 面 应 用 退火 算法 对 代码 7-6.py 做 一 些 改动 ， 代 码 如 下 : 


#!/usr/bin/env python 
= COUings UtF-8. 一 天 一 
#code:myhaspl@qq.com 
#7-8.py 
import numpy as np 
import math 
b=1 
a0=0.1 
a=0.0 
r=5.0 
X= Tparray([l[llrlnels [llr2r1l2]s [le Br9] [lr824] 1].) 
d =np.array ([1,1,-1,-1]) 
w=np.array([b,0,0]) 
expect_e=0.05 
maxtrycount=20 
mycount=0 
def sgn(v): 
if v>0: 
return 1 
else: 
return -1 
def get vl(myw,myx): 
return sgn(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye=get e(oldw,myx,myd) 
a=a0/ (1+float (mycount) /r) 
return (oldwta*mye*myx,mye) 
def get el(myw,myx,myd): 
return myd-get v(myw,myx) 
while True: 
mye=0 
i=0 
for xn in x: 
we=neww (w, d[i],xn,a) 
i+=1 
mye+=pow (e, 2) 
mye=math.sqrt (mye) 
mycount+=1 
print u" 第 %d 次 调整 后 的 权 值 : "%mycount 
print w 
print u" 误 差 : $f"%mye 
if abs (mye) <expect e or mycount>maxtrycount:break 


wwaibbt.com DODDDDDODOD 


第 7 章 ”机 器 学 习 算 法 e 173 


fo Xn in RK: 

print "“%d sd => %d "%(xn[1],xn[2],get vi(w,xn)) 
test=np.array ([1,9,27]) 
print "%d sd => %d "%(test[1],test[2],get vi(w,test)) 
test=np.array([1,11,66]) 
print "%d sd => %d "%(test[1],test[2],get vi(w,test)) 


从 程序 运行 结果 来 看 ， 仅 仅 7 次 就 完成 了 训练 ， 训 练 次 数 大 大 减少 。 


第 6 次 调整 后 的 权 值 : 

[ 1.28888889 -1.55238095 0.29642857] 
误差 : 3.464102 

第 7 次 调整 后 的 权 值 : 

[ 1.28888889 -1.55238095 0.29642857] 
误差 : 0.000000 


1 6 =>1 

2 12 => 1 
a 9 => -1 
8 24 => -1 
9 27 => -1 


11 66 => 1 
>>> 


7.1.2 ”梯度 下 降 


1. 梯度 下 降 概述 

上 一 节 中 曾 提 到 梯度 的 概念 ， 究 竟 什 么 是 梯度 和 梯度 下 降 呢 ? 

梯度 是 一 个 向 量 场 ， 标 量 场 中 某 一 点 上 的 梯度 指向 标量 场 增长 最 快 的 方向 ， 梯 度 的 长 度 
是 这 个 最 大 的 变化 率 。 梯 度 下 降 ， 就 是 利用 负 梯 度 方向 来 决定 每 次 迭代 的 新 的 搜索 方向 ， 从 
而 使 得 在 每 次 迭代 过 程 中 ， 都 能 让 待 优化 的 目标 函数 逐步 减 小 。 梯 度 下 降 法 使 用 的 是 二 范 数 
下 的 最 速 下 降 法 。 最 速 下 降 法 的 一 种 简单 形式 如 下 : 

Xx(k+1)=x(k)-a*g(k) 

其 中 ，a 称 为 学 习 速 率 ， 可 以 是 较 小 的 常数 。g() 是 x( 有 昌 的 梯度 。 

机 器 学 习 算 法 效果 究竟 如 何 ,或 者 说 误差 为 多 少 ， 可 以 用 误差 函数 (0) 来 度量 。 其 中 
的 参数 9 在 神经 网 络 中 可 以 理解 为 权 值 。 如 何 调整 权 值 6 以 使 得 0) 取得 最 小 值 有 很 多 方法 ， 
梯度 下 降 法 是 按 下 面 的 步 又 进行 的 : 

(1) 对 0 赋值 ， 这 个 值 可 以 是 随机 的 ， 也 可 以 让 0 是 一 个 全 零 的 向 量 。 

(2 ) 改变 6 的 值 ， 使 得 .A(9) 按 梯度 下 降 的 方向 进行 减少 。 
为 了 更 清楚 地 表达 ， 先 来 看 一 下 如 图 7-6 所 示 的 误差 曲面 及 梯度 下 降 图 。 

图 7-6 是 表示 参数 9 与 误差 函数 (0) 关系 的 图 ， 也 称 误 差 曲面 图 。 该 图 上 的 方向 表明 ， 
随 着 迭代 次 数 的 增加 ， 误 差 走向 了 曲面 的 最 小 误差 点 。 

红色 较 凸 起 的 部 分 是 表示 .6) 有 着 比较 高 的 取 值 ， 对 其 进行 神经 网 络 训练 时 ， 最 完美 
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的 目标 是 : 让 (0) 的 值 尽 量 低 ， 降 到 最 低 处 ， 也 就 是 最 凹 的 部 分 。9、 外 表示 9 向 量 的 两 个 
维度 。 


Gradient Descent Algorithm 





图 7-6 误差 曲面 及 梯度 下 降 〈 附 彩 图 ) 


梯度 下 降 法 的 第 一 步 是 给 9 一 个 初 值 ， 假 设 随机 给 的 初 值 是 在 最 高 的 十 字 点 处 ; 然后 
将 9 按照 梯度 下 降 的 方向 进行 调整 ， 就 会 使 得 J(0) 往 更 低 的 方向 变化 ， 如 图 7-7 所 示 。 算 法 
的 结束 将 是 在 9 下 降 到 无 法 继续 下 降 为 止 。 当 然 ， 可 能 梯度 下 降 的 最 终点 并 非 是 全 局 最 小 
点 (图 7-6 的 路 径 中 的 最 后 一 个 点 )， 而 是 一 个 局 部 最 小 点 ( 图 7-7 的 路 径 中 的 最 后 一 个 点 )， 
比如 图 7-7 所 示 的 情况 ， 而 图 7-6 中 的 曲线 路 径 则 是 完美 的 梯度 下 降 过 程 。 





图 7-7 落 到 局 部 最 小 点 的 梯度 下 降 ( 附 彩 图 ) 


图 7-7 中 所 示 的 这 种 情况 是 在 神经 网 络 训练 中 要 尽量 避免 出 现 的 ， 这 里 的 梯度 下 降 到 局 
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部 最 小 点 后 停止 ， 神 经 网 络 在 一 个 不 正确 的 位 置 收 化 了， 训练 停止 ,这 时 即使 继续 训练 也 没 
有 任何 效果 。 


2. 梯度 下 降 法 涉及 的 数学 知识 
(1) 导数 的 几何 意义 : 导数 的 几何 意义 在 于 ， 函 数 在 某 一 点 的 导数 等 于 它 的 图 像 上 这 一 

点 处 之 切线 的 斜率 ， 如 图 7-8 所 示 。 
其 斜率 为 : 


tanc = lim tanp = lim fo +A -fm) 
Ax 一 0 Ax 一 0 Ax 


(2 ) 积分 的 几何 意义 : 对 于 一 个 给 定 的 正 实 值 
函数 x)，ftx) 在 一 个 实数 区 间 [a, b] 上 的 定 积分 为 : 
Jp foe)dx 

定 积分 的 几何 意义 可 以 理解 为 在 Oxy 坐标 平面 
上 ， 由 曲线 (x, ftx))、 直 线 x=a, x=b 以 及 x 轴 围 成 
的 曲 边 梯 形 的 面积 ， 这 个 面积 可 以 是 一 块 面积 ， 也 可 以 是 多 块 面积 的 和 ( 注意 ， 这 里 的 面积 
有 正 负 之 分 )。 

(3 ) 微分 的 几何 意义 : 一 元 函数 的 微分 与 自 变 量 的 微分 之 商 等 于 该 函数 的 导数 ， 所 以 导 
数 也 叫做 微 商 。 

设 Ax 是 曲线 y=ftx) 上 的 点 己 在 横 坐 标 上 的 增 量 ，Ay 是 ， 
曲线 在 点 尸 处 相对 于 Ax 的 纵 坐 标 增 量 ，dy 是 曲线 在 点 PP 的 | 
切线 对 应 Ax 在 纵 坐 标 上 的 增 量 ， 如 图 7-9 所 示 。 

(4) 偏 导数 : 拥有 多 个 自 变 量 的 函数 的 偏 导数 是 指 在 保 
持 其 他 自 变 量 恒定 的 情况 下 ， 该 函数 相对 于 其 中 某 个 自 变量 
的 导数 。 函 数 / 关 于 变量 x 的 偏 导数 写 为 /或 闵 。 

f 是 一 个 多 元 函数 。 例 如 : 

flx, y)=x +xyty 

因为 曲面 上 的 每 一 点 都 有 无 穷 多 条 切线 ， 描 述 这 种 函数 图 7-9 微分 
的 导数 相当 困难 。 偏 导数 就 是 选择 其 中 一 条 切线 ， 并 求 出 它 的 斜率 。 

多 自 变量 函数 [xm) 在 点 (aa ) 处 ， 对 于 某 个 自 变 量 x 的 偏 导数 ， 其 定义 为 : 





图 7-8 导数 











h 
(5 ) 梯度 : 欧 几 里 得 空间 R" 中 的 函数 ftx1,.…x,) 对 每 个 自 变量 x 具有 偏 导数 0f/6xj， 在 
点 4 处 ， 这 些 偏 导数 定义 了 一 个 向 量 : 


Of 00) him ths 0) f(a 0) 
Ox, h—>0 


VO- Eo eo] 


Ox, 
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这 个 向 量 称 为 了 在 点 处 的 梯度 。 


3. 梯度 下 降 的 原理 
如 果实 值 函数 F(x) 在 点 a 处 可 微 且 有 定义 ， 那么 该 函数 在 a 点 沿 着 梯度 相反 的 方向 下 
降 最 快 ， 从 函数 下 对 局 部 极 小 值 的 初始 估计 值 z 出发， 存在 如 下 序列 xo, xi x2, …, 使 得 
or yn V F(Xn), n 宇 0 
因此 可 得 到 
F(xo)F(x)F(x,)*… 
如 果 顺 利 的 话 ， 序 列 (%) 将 收敛 到 期 望 的 极 值 。 


4. 梯度 下 降 和 delta 法 则 

delta 法 则 克服 了 感应 器 法 则 的 不 足 ， 在 线性 不 可 分 的 训练 样本 上 ， 可 以 有 效 地 收敛 ， 
并 接近 目标 的 最 佳 近似 值 。delta 法 则 的 关键 思想 是 : 使 用 梯度 下 降 来 搜索 可 能 的 权 向 量 假 
设 空间 ， 以 找到 最 佳 拟 合 训练 样 例 的 权 向 量 。 

delta 法 则 为 反 向 传播 算法 提供 了 基础 ， 而 反 向 传播 算法 能 够 学 习 多 个 单元 的 互连网 络 ， 
在 包含 多 种 不 同类 型 的 连续 参数 化 假设 的 空间 中 ， 梯度 下 降 是 必须 遍历 这 样 的 空间 的 所 有 算 
法 的 基础 。 

误差 曲面 是 一 个 抛物 面 ， 存 在 一 个 单一 全 局 最 小 值 ， 梯 度 下 降 搜索 从 一 个 任意 的 初始 权 
向 量 开始 ， 然 后 沿 误差 曲面 最 陡峭 下 降 的 方向 ， 以 很 小 的 步伐 反复 修改 这 个 向 量 ， 直 到 得 到 
全 局 的 最 小 误差 点 。 


5. 基于 梯度 下 降 的 线性 分 类 器 
下 面 总 结 一 下 前 面 介 绍 的 线性 神经 网 络 代码 ， 并 将 它们 整理 成 Python 模块 mplannliner， 
然后 引入 这 个 模块 ， 实 现 对 一 组 输入 的 线性 分 类 。 以 下 程序 有 详细 的 注释 说 明 。 


#!/usr/bin/env Python 
#-*- Coding: utf-8 一 * 一 
#code:myhaspl@qq.com 


#7-9.py 
import mplannliner as nplann 
traindatal=[[[9,25],-1],[[5,8],-1],[[15,31],-1],[[35,62],-1],[[19,40],-1],[[28,6 


5],1],[[20,59],1],[[9,41],1], [[12,60],1],[[2,37],1]] 
myann=nplann.Mplannliner () 
# 样 本 初始 化 
myann.samples init (traindatal) 
# 学 习 率 初始 化 
myann.a_init(0.1) 
# 搜 索 时 间 常 数 初始 化 
myann.r init(50) 
# 最 大 训练 次 数 
myann.maxtry_init (500) 
# 期 望 最 小 误差 
myann.e init(0.05) 


# 训 练 
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myann .train() 
# 仿 真 ， 测 试 ， 对 未 知 样本 分 类 
myc=myann .simulate([35,68]) 
print mi[357 68]" 
if myc==1: 

print u" 正 类 " 
else: 

print u" 负 类 " 
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# 将 测试 点 在 最 终 效果 图 上 显示 出 来 ， 将 它 加 入 drawponint 集 ,测试 点 表现 为 "*" ,并且 色彩 由 其 最 终 的 分 类 


结果 而 决定 
myann.drawponint add([35,68]) 
myc=myann.simulate ([35, 82]) 
PETnE. L355.8211 
if myc==1: 

print u" 正 类 " 
else: 

print u" 负 类 " 
myann.drawponint add([35,82]) 
myann.draw2d () 


# 下 面 直接 使 用 默认 参数 进行 训练 


tralndata2z= [ll9 .25 .30 .1 ,tS 8,121 .~-1], TS, 31A9)~L]s (3835627108]y 
-1],[[19,40,60],-1],[[28,65,98],1],[[20,59,72],1],[[9,41,38],1],[[12,60,46],1], [[2,37, 


18],1]] 

myann2=nplann.Mplannliner () 
myann2.samples init (traindata2) 
myann2 .train() 
myc=myann2.simulate([35,68,110]) 
print "[35,68,110]" 
if myc==1: 

print u" 正 类 " 
else: 

print u" 负 类 " 


如 图 7-10 所 示 是 程序 运行 生成 的 效果 图 ， 虚 
线 是 分 类 线 ， 它 清晰 地 将 不 同类 的 点 分 成 了 上 下 
两 部 分 。 星 号 为 测试 数据 ， 可 以 看 到 ， 已 被 正确 
分 类 。Rosenblatt 感知 器 对 线性 分 类 效果 还 是 不 
错 的 。 

mplannliner 模块 的 代码 如 下 : 


#!/usr/bin/env Python 

#=*~ coding: ULEE=8 =*= 
#code:myhaspl@qq.com 

#author: 麦 好 

#2013-07-25 

import numpy as np 

import math 

import matplotlib.pyplot as plt 
class Mplannliner: 


ANN-LINER [red:+green:-] 
[myhaspl@qq.comjhttp:/blog.csdn.netu010255642 





0 5 0 15 20 25 30 35 40 
x 


图 7-10 ”线性 分 类 效果 
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def init (self): 
self .b=1 
self.a0=0.1 
self.a=0.0 
self.r=20.0 
self.expect e=0.05 
self.traincount=100 
self.testpoint=[] 
def testpoint init(self)': 
self.testpoint=[] 
def e initl(self,mye): 
self.expect e=mye 
def samples init(self,mysamples): 
my_x =[] 
my_d =[] 
my_w =[self.b] 
myexamp=mysamples 
for mysmp in myexamp: 
tempsmp=[1] +mysmp [0] 
my_x.append (tempsmp) 
my_d.append (mysmp [1]) 
for i in range (Len (my x[0])-1): 
my_w.append (0.0) 
self.x = np.array (my_x) 
self.d = np.array (my_d) 
self.w = np.array (my_w) 
def a init(self,mya): 
self.a0=mya 
def r init(self,myr): 
self.r=myr 
def maxtry init (self,maxc): 
self.traincount=maxc 
def sgn(self,v): 
if v>0: 
return 1 
else: 
return 一 
def get vl(self,myw,myx): 
return self.sgn(np.dot (myw.T,myx)) 
def neww(self,oldw,myd,myx,a,mycount): 
mye=self.get el(oldw,myx,myd) 
self.a=self.a0/(l+mycount/float (self.r)) 
return (oldwta*mye*myx,mye) 
def get el(self,myw,myx,myd): 
return myd-self.get v(myw,myx) 
def train(self): 
mycount=0 
while True: 
mye=0 
i=0 
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for xn in self.x: 
self.w,e=self.neww (self.w,self.d[i],\ 
xn, self.a,mycount) 
i+=1 
mye+=pow (e, 2) 
mye=math.sqrt (mye) 
mycount+=1 
print un 第 %qd 次 调整 中 … 误 差 : %$f"% (mycount,mye) 
if abs (mye)<self.expect e or mycount>self.traincount: 
if mycount>self.traincount: 
print "已 经 达到 最 大 训练 次 数 :%d"%mycount 
break 
def simulate (self,testdata): 
if self.get v(self.wrnp.array([1]+testdata) ) >0 : 
return 1 
else: 
return -1 
def drawponint add(self,point): 
self.testpoint.append (point) 


def draw2d (selt): 
temp_ x=[] 
temp_y=[] 
i=0 
for mysamp in self.x: 
temp x.append (mysamp[1]1) 
temp_y.append (mysamp [2]) 
if self.d[i] > 0: 
Plt.plot (mysamp [1],mysamp[2],"or") 
else: 
plt.plot (mysamp[1],mysamp[2],"0g") 
i+=1 
mytestpointx=[] 
mytestpointy=[] 
for addpoint in self.testpoint: 
if self.simulate (addpoint)=="+": 
plt.plot(addpoint [0] raddpoint [1], xz) 
else: 
plt.plot (addpoint [0],addpoint[1], '*g') 


mytestpointx.append (addpoint [0]) 
mytestpointy.append (addpoint [1]) 


x max=max (max (temp_ x),max (mytestpointx))+5 
x min=min (min(temp x),min (mytestpointx)) 
y_max=max (max (temp y),max (mytestpointy))+5 
y_min=min (min (temp y),min (mytestpointy)) 
if x min >0: 

x_min=0 
i yy mn 205 
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y_min=0 
plt.xlabel (u"x1") 
plt.xlim(x min, x max) 
plt.ylabel (u"x2") 
plt.ylim(y min, y_max) 
plt.title("ANN-LINER[red:+ green:-]" ) 
lp xl1 = [x min, x max] 
lp x2 = [] 
myb=self.w[0] 
mywl=self.w[1] 
myw2=self.w[2] 
myy= (-myb-mywl*lp x1[0])/float (myw2) 
lp_x2.append (myy) 
myy= (-myb-mywl*lp x1[1])/float (myw2) 
lp_x2.append (myy) 
plt.plot(lp xl1, lp x2r "b==") 
plt.show() 


7.1.3” 反 向 传播 与 多 层 感知 器 


1. 反 向 传播 算法 

反 向 传播 算法 对 梯度 下 降 法 进行 了 改进 ， 主 要 由 两 个 环节 ( 激励 传播 、 权 重 更 新 ) 反复 
循环 兴 代 ， 直 到 网 络 对 输入 的 响应 达到 预定 的 目标 范围 为 止 。 它 可 用 来 学 习 多 层 网 络 的 权 
值 ， 通 过 搜索 一 个 巨大 的 假设 空间 ( 这 个 空间 由 网 络 中 所 有 单元 的 所 有 可 能 权 值 定义 ) 得 到 
误差 曲面 。 在 多 层 神经 网 络 中 ,误差 曲 面 存在 全 局 最 小 值 ， 但 也 可 能 存在 多 个 局 部 极 小 值 ， 
梯度 下 降 法 不 能 保证 收敛 到 全 局 极 小 值 ， 但 反 向 传播 算法 较 好 地 解决 了 这 个 问题 ， 在 实践 中 
有 出 色 的 效果 。 反 向 传播 算法 有 以 下 特点 : 

(1) 网 络 中 的 每 个 神经 元 模型 包括 一 个 非 线性 激活 函数 ， 非 线性 是 光滑 的 〈 即 处 处 可 
微 ) 也 是 必要 的 ， 否 则 网 络 的 输入 输出 关系 会 被 归结 为 单 层 感知 器 。 

(2 ) 网 络 包括 一 层 或 多 层 神经 元 的 隐 层 ， 它 不 负责 网 络 的 输入 输出 。 这 些 隐 层 神经 元 逐 
步 从 输入 向 量 中 提取 有 用 特征 ， 使 网 络 学 习 复杂 的 任务 。 

(3 ) 网 络 的 连接 强度 由 网 络 突 触 决定 。 

反 向 传播 算法 的 主要 过 程 如 下 : 

( 1 ) 激励 传播 过 程 。 在 神经 元 的 激活 函数 输入 处 应 用 诱导 局 部 域 s(n)， 定 义 如 下 : 

= 六 WO 
这 个 过 程 完成 逐 层 从 输入 层 传播 至 输出 层 的 任务 。 
( 2 ) 权重 更 新 过 程 。 对 每 层 的 神经 元 的 权 值 进行 修正 ， 公 式 如 下 ; 
A wi(n )=n6,(n y(n) 

其 中 ，A w(n) 是 指 神经 元 i 连接 到 神经 元 /的 突 触 产 的 权 值 的 校正 值 ,1 是 学 习 率 ， 

5/(n) 是 局 部 梯度 。 
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反 向 传播 算法 的 过 程 如 下 : 

从 建立 一 个 具有 期 望 数量 的 隐藏 单元 和 输出 单元 的 网 络 开始 ， 初 始 化 所 有 的 网 络 的 权 值 
为 较 小 的 随机 数 (0 一 1 的 实数 ) ; 然后 ， 给 定 一 个 固定 的 网 络 结构 ; 最 后 ,算法 的 主 循环 对 
训练 样 例 进 行 反 复 迭 代 ， 对 于 每 一 个 训练 样 例 ， 它 会 应 用 目前 的 网 络 到 这 个 样 例 中 ， 并 计算 
出 对 这 个 样 例 网 络 输出 的 误差 ， 更 新 网 络 中 所 有 的 权 值 ， 然 后 对 这 样 的 梯度 下 降 步 又 进行 迭 
代 ， 直 到 网 络 的 性 能 达到 可 接受 的 精度 为 止 。 

但 该 算法 存在 局 限 性 ， 仍 然 无 法 摆脱 陷入 局 部 最 小 误差 的 地 步 。 因 此 ， 要 在 此 基础 上 增加 
冲 量 (动量 ) 项 。 通 过 修改 权 值 更 新 法 则 ， 使 第 n 次 迭代 时 权 值 的 更 新 受到 第 n-1 次 迭代 的 影 
响 ， 即 本 次 迭代 的 更 新 值 的 计算 ， 有 部 分 参数 来 自 于 上 次 迭代 的 更 新 值 ， 这 样 ， 冲 量 有 时 会 深 
过 误差 曲面 的 局 部 极 小 值 ， 并 在 梯度 不 变 的 区 域内 逐渐 增 大 搜索 步 长 ， 加 快 收敛 ， 从 而 减少 训 
练 次 数 。 


2. 多 层 感知 器 网 络 
多 层 感 知 器 利用 非 线性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 输 出 端 可 以 直接 使 用 非 线性 神经 
元 ， 也 可 以 使 用 线性 神经 元 。 如 图 7-11 所 示 是 一 个 拥有 两 个 隐藏 层 的 多 层 感知 器 网 络 。 











输入 层 第 一 隐 层 第 二 隐 层 输出 层 
图 7-11 多 层 感知 器 网 络 


在 图 7-11 中 ， 网 络 由 输入 层 、 隐 藏 层 及 输出 层 构成 ， 它 能 够 表示 种 类 繁多 的 非 线 性 曲 
面 ， 多 层 网 络 能 在 隐藏 层 自动 发 现 并 被 有 效 表 示 。 它 允许 学 习 器 创造 出 设计 者 没有 明确 引入 
的 特征 ， 网 络 中 使 用 的 单元 层 越 多 ， 可 以 创造 出 的 特征 越 复杂 。 

多 层 感知 器 的 激活 函数 及 局 域 梯度 如 下 。 

(1 ) logistic 函数 。logistic 函数 的 定义 为 : 


1 
也 (0 = 一 一 
( l+e™ 


它 又 称 sigmoid 曲线 ( $ 型 曲线 )， 如 图 7-12 所 示 是 它 的 图 像 ， 很 像 字母 S。 
在 多 层 感知 器 中 ，logistic 函数 可 作为 神经 元 j 的 激活 函数 pg'(v,(n))， 它 定义 为 : 


: 0 


EA a 
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logistic 范 数 






区 | 


1 
=30 一 20 JJ 0 10 20 30 








图 7-12 sigmoid 曲线 ( 附 彩 图 ) 
其 中 ，u(zm) 是 神经 元 7 的 诱导 局 部 域 。 
logistic 函数 的 局 部 梯度 需要 分 两 种 情况 定义 : 
第 一 种 情况 ， 神 经 / 没有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 


Sn)=a(d(n)-o(n))o(n)(1-o(n)) 
第 二 种 情况 ， 神 经 j 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 


6,(n)=ay,(n)(1—y,(n) D6, (nw (n) 
k 
(2 ) tanh 函数 。tanh ( 双 曲 正切 ) 函数 的 数学 定义 为 : 


和 
. E 一 e 
sinh x = 





x > 
e+e 
cosh x = 一 -一 一 


es sinh(x) 
cosh(x) 


双 曲 正切 函数 的 图 像 如 图 7-13 所 示 。 
logistic 函 数 








图 7-13 双 曲 正切 函数 
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在 多 层 感 知 器 中 ， 双 曲 正切 函数 可 作为 神经 元 的 激活 函数 g,(w(m))， 它 定义 为 : 
poAn))=atanh(bo(n)) 
其 中 ,a 和 5 为 正 的 常数 值 ，v/(n) 是 神经 元 j 的 诱导 局 部 域 。 
双 曲 正切 函数 的 局 部 梯度 需要 分 两 种 情况 定义 : 
第 一 种 情况 ， 神 经 元 没有 位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
5,0) =2(d,(m) -0,m)a-o,(n)aa to,(n) 
` 第 二 种 情况 ， 神 经 ;位 于 隐藏 层 ， 则 局 部 梯度 定义 为 : 
5,0)=2 (dy (a+ y(n) (nw) 
前 面 说 过 ， 多 层 感知 器 利用 非 线性 神经 元 作为 中 间 隐 藏 层 神经 元 ， 非 线性 神经 元 使 用 双 


曲 正切 函数 或 logistic 函数 作为 激活 函数 ， 使 用 非 线性 神经 元 或 使 用 线性 神经 元 组 成 输出 层 。 
多 层 感知 器 的 训练 需要 很 多 样本 ， 其 中 每 个 样本 的 学 习 过 程 分 为 前 向 计算 和 反 向 计算 。 


前 向 计算 根据 权 值 矩阵 由 前 向 后 一 层 层 神 经 元 地 推进 ， 每 次 推进 根据 权 值 计 算 每 层 的 输 


出 值 ; 反 向 计算 根据 输出 结果 与 目标 输出 的 误差 来 由 后 向 前 调整 神经 网 络 的 权 值 ， 引 入 冲 量 
作为 神经 网 络 权 值 调整 的 依据 之 一 ， 冲 量 ( 动量 ) 参数 既 可 以 调整 学 习 速 度 ， 还 能 体现 时 间 
延迟 。 


整个 算法 过 程 也 是 反 向 传播 算法 的 过 程 ， 通 过 使 用 梯度 下 降 方法 搜索 可 能 假设 的 空间 ， 


和 迭代 减 小 网 络 的 误差 以 拟 合 训练 数据 。 


如 果 不 调用 神经 网 络 的 中 间 库 ， 自 己 编写 所 有 的 代码 ， 需 要 把 握 好 以 下 要 点 : 
(1 ) 学 习 率 和 动量 参数 。 输 入 层 、 输 出 层 、 中 间 层 的 学 习 率 和 动量 参数 不 同 。 输 出 层 的 


学 习 率 较 低 ， 动 量 参数 较 高 ; 输入 层 的 学 习 率 较 低 ， 动 量 参数 较 低 。 


《2) 权 值 。 权 值 矩 阵 非 常 重要 ， 一 个 好 的 权 值 矩 阵 能 使 网 络 快速 收敛 ， 让 网 络 更 稳定 。 


关于 权 值 初始 化 的 策略 ， 可 以 选择 以 下 几 种 方法 : 


口 随机 初始 化 。 
口 逐步 搜索 法 。 
口 Nguyen-Widrow 初始 化 算法 ，MATLAB 使 用 Nguyen-Widrow 权 值 矩 阵 初始 化 算法 。 
(3 ) 输出 层 处理 ， 为 了 确保 输出 层 输出 的 数据 符合 预测 结果 的 要 求 ， 需 要 另外 的 函数 对 


输出 层 进行 处 理 。 在 线性 神经 网 络 中 ， 通 常 使 用 硬 限 幅 函数 ， 在 多 层 感知 器 这 种 非 线 性 神经 
网 络 中 既 可 以 使 用 硬 限 幅 ， 也 可 以 使 用 其 他 函数 ， 具 体 使 用 什么 函数 要 看 训练 效果 如 何 。 


(4) 数据 预 处 理 。 输 入 数据 五 花 八 门 ， 在 训练 之 前 对 数据 进行 预 处 理 是 非常 必要 的 。 通 


过 预 处 理 权 值 矩阵 使 进入 神经 网 络 的 数值 不 会 过 大 或 过 小 ， 以 保证 通过 中 间 层 的 非 线性 神经 
元 时 ,输出 不 至 近 其 极限 。 


先 来 看 图 7-14， 上 面 显 示 的 数据 散乱 且 不 均匀 。 
数据 预 处 理 的 目标 是 : 将 图 7-14 中 的 数据 转化 为 如 图 7-15 所 示 的 形式 ， 数 据 均匀 地 分 


布 在 坐标 系 中 ，4 个 象限 均 有 数据 存在 。 
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图 7-15 ”均匀 分 布 的 数据 


前 面 讲述 了 多 层 感 知 器 的 理论 基础 ， 下 面 用 Python 实现 一 个 多 层 感 知 器 ， 理 论 联系 实 
践 ， 这 样 才能 更 好 地 理解 反 向 传播 算法 和 多 层 感 知 器 。 这 里 要 实现 的 是 使 用 感知 器 将 一 组 数 
据 进行 非 线性 分 类 ， 具 体 要 求 为 : 对 下 面 这 组 输入 数据 和 输出 目标 进行 训练 ， 对 未 知 数据 进 
行 仿真 测试 。 


x= [[4,11],[7,340], [10,95],[3,29],[7,43],[5,128]] 
d =[[1,0],10,1], [1,0],[0,1],[1,0],10,1]] 


为 了 简化 实现 过 程 ， 使 用 原始 的 纯 随 机 生成 方法 产生 多 层 感知 器 网 络 的 权 值 矩 阵 。 权 值 
初始 值 既 要 保证 权 值 矩阵 实现 输入 项 在 网 络 中 均匀 分 布 ， 又 要 保证 权 值 矩 阵 本 身 的 均匀 分 
布 。 为 达到 这 个 目的 ， 随 机 生成 若干 个 权 值 矩阵 ， 然 后 从 中 选择 最 优化 的 权 值 和 矩阵。 最 优化 
的 标准 为 : 

(1) 对 于 输入 层 的 权 值 设计 ， 要 尽量 使 输入 数据 的 方差 接近 1。 此 外 ， 对 于 相差 较 大 的 
样本 ， 将 它们 处 理 为 分 布 不 太 接近 饱和 的 可 供 训练 的 输入 数据 。 

(2 ) 权 值 矩阵 的 均值 要 尽 可 能 小 ， 其 方差 尽 可 能 与 神经 元 的 突 触 连接 数 成 反比 。 

同时 ， 要 考虑 到 数据 的 预 处 理 ， 需 要 在 输入 层 前 设置 一 个 预 处 理 权 值 矩 阵 ， 所 有 的 输入 
经 过 预 处 理 权 值 矩 阵 处 理 后 进入 多 层 感知 器 的 输入 层 。 代 码 如 下 : 

# 对 输入 数据 进行 预 处 理 


ann max=[] 
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for m ani in xrange (0,warray txn) : 
temP_x=nP .array (train x) 
ann max.append (np.max (temPp_ x[:,m anil])) 
ann max=np.array (ann_ max) 
def getnowsx (mysx,in w): 
'''! 生 成 本 次 的 扩 维 输入 数据 ''' 
global warray _n 
mysx=np.array (mysx) 
x_end=[] 
for i in xrange (0,warray n): 
x_end.append (np.dot (mysx,in wl[:,i])) 
return x end 


def get inlw(my train max,w_ count,myin x): 
'"''! 计 算 对 输入 数据 预 处 理 的 权 值 ''' 
# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 
global warray txn 
global warray _n 
mylw=[] 
y_in=[] 
# 生 成 测试 权 值 
mylw=np.random.rand(w_ count,warray txn,warray_n) 
for ii in xrange (0,warray txn): 
mylw[:,ii,:]=mylw[:,ii,:]*1/float (my train max[ii])-\ 
l/float (my train max[ii])*0.5 
# 计 算 输出 
for i in xrange (0,w_count) : 
y_in.append([]) 
for xj in xrange(0,len (myin x)): 
y_in[i] .append(getnowsx (myin x[xj],mylw[il])) 
# 计 算 均 方差 
mymin=10**5 
mychoice=0 
for i in xrange(0,w_ count): 
myVar=np.var(y in[i]) 
if abs (myvar-1)<mymin: 
mymin=abs (myvar-1) 
mychoice=i 
# 返 回 数据 整理 的 权 值 矩 阵 


return mylw[mychoice] 
mylnww=get_inlw(ann max,300,train x) 


def get inputx (mytrain x,myin w): 
'"，' 将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 ''' 
end trainx=[] 
for i in xrange(0,len (mytrain x)): 
end trainx.append (getnowsx (mytrain x[i],myin w)) 
return end trainx 
x=get inputx(train x,mylnww) 
def get_ siminx(sim x): 
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global mylnww 
myxx=np.array (sim x) 
return get inputx (myxx,mylnww) 
def getlevelw (myin x,wo nwi n,w count) : 
'"'' 计 算 一 层 的 初始 化 权 值 矩 阵 ''' 
mylw=[] 
y_in=[] 
# 生 成 测试 权 值 
mylw=np.random.rand(w_count,wi nrwo_n) 
mylw=mylw*2.-1 
# 计 算 输出 
for i in xrange (0,w count): 
y_in.append([]) 
for xj in xrange (0,1en (myin x)): 
x _ end=[] 
for myii in xrange (0,wo n): 
x_end.append (np.dot (myin x[xj],mylwl[i,:,myii])) 
y_in[i] .append (x_end) 
# 计 算 均 方差 
mymin=10**3 
mychoice=0 
for i in xrange (0,w_ count): 
myvar=np.var(y_in[i]) 
if abs (myvar-1)<mymin: 
mymin=abs (myvar-1) 
mychoice=i 
# 返 回 数据 整理 的 权 值 矩 阵 
csmylw=mylw [mychoice] 
return csmylw,y_in[lmychoice] 
ann_w=[] 
def init annw(): 
global x 
global hidelevel count 
global warray _n 
global Q 
global ann w 
ann w=[] 
lwyii=np.array (x) 
for myn in xrange (0,hidelevel count): 
# 层 数 
ann w.append ([]) 
if myn==hidelevel count-1: 
for iii in xrange (0,warray n): 
ann w[myn] .append([]) 
for jjj in xrange(0,warray n): 
ann wlmyn] [iii] .append(0.0) 
elif myn==hidelevel Count 一 2 : 
templw, lwyii=getlevelw (lwyii,len(d[0]),warray n,200) 
for xii in xrange(0,warray n): 
ann w[myn] .append([]) 
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for xjj in xrange(0,1len(d[0])): 
ann wl[myn] [xii] .append (templw[xii,xjj]) 
for xjj in xrange (len(d[0]),warray n): 
ann wl[lmyn] [xii] .append (0.0) 
else: 
templw, lwyii=getlevelw (lwyii,warray n,warray _nr200) 
for xii in xrange (0,warray n): 
ann wl[lmyn] .append([]) 
for xjj in xrange (0,warray n): 
ann wl[myn] [xii] .append (templw [xii,xjj]) 
ann w=np.array (ann_w) 
def generate lw(trycount): 
global ann w 
print u" 产 生 权 值 初始 矩阵 "， 
meanmin=1 
myann w=ann _w 
alltry=30 
tryc=0 
while tryc<alltry: 
for i i in range(trycount): 
print Ts, 
init annw() 
if abs (np.mean (np.array (ann _w)))<meanmin: 
meanmin=abs (np.mean (np.array (ann w) ) ) 
myann w=ann Ww 
tryct+=1 
if abs(np.mean (np.array (myann w)))<0.008:break 
ann w=myann w 
print 
print u" 权 值 矩 阵 平 均 :%f"% (np.mean (np.array (ann_w))) 
print un 权 值 矩阵 方差 :sf"gs (np.var (np.array (ann_w))) 
generate lw(15) 


此 外 ， 只 需要 输出 一 个 值 ， 在 这 里 不 使 用 硬 限 幅 函数 ， 而 是 返回 最 大 值 的 索引 ， 因 此 需 


要 编写 对 输出 值 进行 最 后 加 工 的 函数 (注意 ,为 了 由 浅 入 深 讲 解 ， 从 现在 直到 后 面 明确 声 
明 ， 误差 率 的 计算 以 最 后 此 函数 的 输出 结果 为 标准 )。 该 函数 的 定义 如 下 : 


def o_func (myy) : 
myresult=[] 
for i in xrange(0,1en (myy)): 
mean=np .mean (myy) 
if myy[i]>mean: 
myresult.append (1.0) 
else: 
myresult.append (0.0) 
return np.array (myresult) 


另外 ， 可 选择 tanh 函数 作为 非 线性 神经 元 的 激活 函数 ， 它 的 输出 值 在 [-1,1] 范围 内 。 下 


面 代码 完成 激活 函数 (ann_atanh 函数 ) 及 其 局 部 梯度 ( ann_delta_atanh 函数 ) 的 计算 。 


def ann_atanh (myV) : 
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atanh a=1.7159#>0 
atanh b=2/float (3)#>0 
temp_ rs=atanh a*np.tanh(atanh b*myv) 
return temp rs 
def ann delta atanh (myy,myd,nowlevel,level,n,mydelta,myw): 
anndelta=[] 
atanh a=1.7159#>0 
atanh b=2/float (3)#>0 
if nowlevel==level: 
# 输 出 层 
anndelta= (float (atanh b)/atanh a)* (myd-myy)* (atanh a-myy)* (atanh a+tmyy) 
else: 
# 隐 藏 层 
anndelta= (float (atanh b)/atanh a)*(atanh a-myy)* (atanh af+myy) 
temp_rs=[] 
0x 本 渤 丰 xrange (0,n): 
temp_rs.append (sum (myw[j]*mydelta)) 
anndelta=anndelta*temp_rs 
return anndelta 


下 面 介绍 反 向 传播 的 核心 算法 ， 算 法 分 为 前 向 计算 和 反 向 计算 两 个 过 程 。 代 码 如 下 : 


def sample _ train (myxvmydnvsigmoid func,delta sigfun): 
' 7 "一 个 样本 的 前 向 和 后 向 计算 ! 7 
global ann yi 
global ann delta 
global ann_ w 
global ann wj0 
global ann y0 
global hidelevel count 
global alllevel count 
global learn r 
global train a 
global ann oldw 
level=hidelevel count 
allevel=alllevel count 
# 清 空 yi 输出 信号 数组 
hidelevel=hidelevel count 
alllevel=alllevel count 
for i in xrange (0,alllevel): 
# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange (0,n): 
# 第 二 维 是 神经 元 
ann yi[i][j]=0.0 
ann yi=np.array (ann Yi) 
yi=ann yi 
# 清 空 deLta 和 矩阵 
for i in xrange (0,hidelevel-1): 
for j in xrange (0,n): 
ann deltalil][j]=0.0 
delta=ann delta 
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# 保 留 W 的 拷贝 ， 以 便 下 一 次 迭代 
ann oldw=copy.deepcopy (ann_w) 
oldw=ann oldw 
# 前 向 计算 
if isdebug:print u" 前 向 计算 中 ..." 
# 对 输入 变量 进行 预 处 理 
myo=np.array([]) 
for nowlevel :in xrange(0,alllevel): 
# 一 层 层 向 前 计算 
# 计 算 诱导 局 部 域 
my_y=[] 
myy=yi [nowlevel-1] 
myw=ann_w[nowlevel-1] 


if nowlevel==0: 
# 第 一 层 隐 藏 层 
my_y=myx 


yi[nowlevel]=my y 
elif nowlevel==(alllevel-1): 
# 输 出 层 
my_y=0_funcl(yi[nowlevel-1, :len (myd)]) 
yi[nowlevel,:len(myd)]=my y 
elif nowlevel== (hidelevel-1): 
# 最 后 一 层 输 出 层 
for i in xrange (0,1len (myd)): 
temp y=sigmoid func(np.dot (myw[:,i],myy)) 
my_y.append (temp_y) 
yi[nowlevel, :len (myd) ] =my_Y 
else: 
# 中 间 隐 藏 层 
for i in xrange(0,1en (myy)): 
temp_y=sigmoid func(np.dot (myw[:,i],myy)) 
my_y.append (temp_y) 
yi[nowlevel]=my y 
if isdebug: 
print Unx*xxxx 本 样本 训练 的 输出 矩阵 ****x*xrrrn 
Print yi 
print 了 六 六 六 太太 交 六 六 大奖 关 太 六 六 六 太太 大 六 六 太太 大 六 大奖 类 六 太太 太庙 太太 昌 
# 计 算 误 差 与 均 方 误差 
# 因 为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结果 
myo=yi [hidelevel-1] [:len (myd)] 
myo_end=yi[alllevel-1][:len (myd) ] 
mymse=get_e (myd,myo_end) 
# 反 向 计算 
# 输 入 层 不 需要 计算 deIta 输出 层 不 需要 计算 W 
if isdebug:print u" 反 向 计算 中 ..." 
# 计 算 delta 
for nowlevel in xrange (level-1,0,-1): 
if nowlevel==level-l1: 
mydelta=delta[nowlevel] 
my_n=len (myd) 
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### 


else: 
mydelta=delta[nowlevel+1] 
my_n=n 
myw=ann w[nowlevell] 
if nowlevel==level-1: 
# 输 出 层 
mydelta=delta_ sigfun (myo, myd, None, None, None, None, None) 
mydelta=mymse*myo 
elif nowlevel==level-2: 
# 输 出 隐藏 层 的 前 一 层 ， 传 输 相当 于 输出 隐藏 层 的 神经 元 数目 的 数据 


mydelta=delta sigfun(yi[nowlevel],myd,nowlevel,level- 


l,my_n,mydelta[:len (mydq) ] ,myw[:,:1len (myd)]) 


l,my_n,mydelta,myw) 


else: 
mydelta=delta sigfun(yi[nowlevel],myd,nowlevel,level- 


delta[lnowlevel] [:my nl]=mydelta 


# 计 算 与 更 新 权 值 W 


for nowlevel in xrange (level-1,0,-1): 


level myy[i]) 


# 每 个 层 的 权 值 不 一 样 
if nowlevel==level-1: 
# 输 出 层 
my_n=len (myd) 
mylearn r=learn r*0.8 
mytrain a=train ar*1.6 
elif nowlevel==1: 
# 输 入 层 
my_n=len (myd) 
mylearn r=learn r*0.9 
mytrain a=train a*0.8 
else: 
# 其 他 层 
my_n=n 
mylearn r=learn r 
mytrain a=train a 


pre_level myy=yi [nowlevel-1] 
pretrain myww=oldw[nowlevel-1] 
pretrain myw=pretrain myww[:,:my_n] 


# 第 二 个 调整 参数 


temp i=[] 


for i in xrange (0,n): 
temp i.append([]) 
for jj in xrange (0,my n): 
temp i[i].append(mylearn r*delta[nowlevel,jj]*pre 


temp rs2=np.array (temp i) 
temp_rsl=mytrain a*pretrain myw 
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temp_change=temp rslt+temp_rs2 


my_ww=ann wl[nowlevel-1] 


my_ww[:r :my Dn]+=temp_change 


if isdebug: 


print unxxx 权 值 矩 阵 **xnm 


print ann w 


print unx*y* 梯 度 和 矩阵 x*xnm 


print delta 


return mymse 


还 需要 训练 神经 网 络 ， 并 读 取 测试 数据 ， 验 证 效果 。 其 中 ， 训 练 神 经 网 络 的 代码 如 下 : 


train() 

delta sigfun=ann delta atanh 
sigmoid func=ann atanh 

i=0 


for xn in xrange(0,1en (x)): 


print un 样本 : $d~%d => "g% (train x[xn] [0],train x[xn] [1]) 
print simulate(x[xn],sigmoid func,delta sigfun) 


print u"===== 正 确 目标 值 ===== 
print dl[i] 
i+=1 

验证 神经 网 络 的 代码 如 下 : 


test=np.array (get siminx([[8,70]])) 
$f "$s(8,70) 


print; u" 测 试 值 : %f 


print simulate (test,sigmoid func,delta sigfun) 


print u" 正 确 目标 值 ; [1,0]" 


test=np.array (get siminx([[6.5,272]])) 
Sf "%(6.5,272) 


print u" 测 试 值 : %f 


print simulate (test,sigmoid func,delta sigfun) 


print u" 正 确 目标 值 : [0,1]" 
exitstr=raw_input (u" 按 回 车 键 退出 ") 


运行 上 述 程序 ， 经 过 78 次 训练 ， 神 经 网 络 达到 了 训练 目标 ,误差 率 为 0。 从 以 下 运行 


结果 来 看 ， 效 果 不 错 。 


训练 成 功 ， 正 在 进行 检验 
仿真 计算 中 
仿真 计算 中 
仿真 计算 中 
仿真 计算 中 
仿真 计算 中 
仿真 计算 中 


误差 为 : 0 .816497 
误差 为 : 0.577350 
误差 为 : 0.000000 
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训练 成 功 ,误差 为 : 0.000000 


[1, 0] 


仿真 计算 中 


[0, 1] 


仿真 计算 中 


[1, 0] 
样本 : 3~29 => 


tb Q: Ls 


[0, 1] 

样本 : 7~43 => 
仿真 计算 中 

[ L。 G1 


[1, 0] 


仿真 计算 中 


[0, 1] 

测试 值 : 8 .000000 70.000000 
仿真 计算 中 

[ 站 。 Du 

正确 目标 值 : [1,0] 

测试 值 : 6.500000 272.000000 
仿真 计算 中 

站 办。 

正确 目标 值 :[0,11] 

按 回 车 键 退出 


上 述 多 层 感 知 器 的 完整 源 代码 见 本 书 资源 包 中 的 “多 层 感 知 器 神经 网 络 源 代码 .doc” 文 
件 或 7-10.py 文件 。 

前 面 用 例子 说 明了 Rosenblatt 感知 器 的 局 限 性 ， 现 在 在 多 层 感知 器 上 对 Rosenblatt 感知 
器 无 法 分 类 的 数据 进行 测试 。 将 “多 层 感 知 器 神经 网 络 源 代码 .doc” 文 件 中 的 代码 中 的 样本 
数据 进行 修改 ， 并 加 上 绘制 散 点 图 的 代码 。 


#x 和 d 样 本 初始 化 
train x = np.array([[1,6],1(3,12], [3,9],[3,21],[2,16], [3,15]]) 
d =np.array ([[1,0], [1,0], [0,1], [0,1], [1,0], [0,1]]) 
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for xn in xrange(0,1en (x)): 
if simulate(x[xn],sigmoid func,delta sigfun) [0] > 0: 
pl.plot (train x[xn] [0],train x[xn] [1],"bo") 
else: 
pl.plot (train x[xn] [0],train x[xn] [1],"b*") 
pl.show() 


运行 代码 对 神经 网 络 进行 训练 ， 训 练 成 功 后 ， 误 差 为 0。 如 图 7-16 所 示 为 训练 效果 ， 实 
心 圆圈 与 星 号 分 别 表示 两 类 样本 点 ， 多 层 感 知 器 30 
网 络 的 非 线性 分 类 成 功 完成 了 Rosenblatt 感知 器 
无 法 完成 的 任务 。 

现在 在 上 述 代 码 基础 上 ， 加 上 若干 随机 数据 。 
点 ,将 学 习 率 设 得 较 小 ， 进 一 步 观察 多 层 感 知 器 QQ 15 
的 非 线性 分 类 能 力 。 代 码 如 下 : 10 


#!/usr/bin/env python 


29 





# 
#-*—- coding: utf-8 -*- 
#code:myhaspl@qq.com 0 
#7-11.py 0 3 页 
import pylab as pl X1 


import numpy as np 
rp 吉 5 图 7-16 多 层 感知 器 网 络 的 非 线 性 分 类 
import copy 
isdebug=False 
#x 和 ad 样本 初始 化 
train x = np.array ([[1,6],[3,12], {3,9],[3,21],[2,16],[3,15]]) 
d =np.array ([[1,0], [1,0],[0,1], [0,1],1{1,0],10,1]]) 

train() 

delta sigfun=ann delta atanh 

sigmoid func=ann atanh 

temp x=np.random.rand (20)*10 

temp_ y=np.random.rand(20)*20+temp x 

myx=temp_x 

myy=temp_y 

pl.subplot (111) 

x _ max=np.max (myX) +5 

x min=np.min (myx) -5 

y_max=np.max (myy) +5 

y_min=np.min (myy) -5 

pl.xlabel (u"xl1") 

pl.xlim(x min, x max) 

pl.ylabel (u"x2") 

pl.ylim(y min, y_max) 

i=0 


for mysamp in myx: 
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test=get_siminx([[mysamp,myy[i]l]]) 
if simulate (test,sigmoid func,delta sigfun) [0] > 0: 
pl.plot (mysampvmyy[il，,"rzo") 
else: 
pl.plot (mysamp,myy[i],"g*") 
了 十 = 工 
for xn in xrange(0,1en (x)): 
if simulate(x[xn],sigmoid func,delta sigfun) [0] > 0: 
pl.plot (train x[xn] [0],train x[xn] [1],"bo") 
else: _ 
pl.plot (train x[xn] [0],train x[xn] [1],"b*") 
pl.show() 


从 如 图 7-17 所 示 的 分 类 效果 中 ， 能 直观 感受 
到 多 层 感知 器 的 非 线性 分 类 能 力 。 其 中 ， 星 号 与 
实心 圆圈 表示 的 数据 点 被 分 成 了 两 类 ， 它 们 之 间 
的 界限 是 非 线 性 表示 的 曲线 ， 而 不 是 线性 表示 的 
直线 。 

在 多 层 感 知 器 学 习 中 ， 经 常 需要 用 到 一 个 概 
念 : 误差 曲线 。 误 差 曲线 体现 在 一 个 二 维 坐标 系 
中 , 邢 轴 表示 训练 次 数 ，7 轴 表示 每 次 训练 的 误 
差 率 。 理 想 的 误差 曲线 是 随 着 了 的 增加 ,了 Y 值 不 
断 平滑 减少 ， 这 与 误差 曲面 相似 ,误差 曲面 以 参 
数 为 自 变 量 ， 这 些 都 形象 地 体现 了 梯度 下 降 的 概 图 7-17 ” 非 线 性 分 类 
念 。 它 们 都 说 明了 一 个 道理 : 一 个 设计 良好 的 多 
层 感 知 器 ， 随 着 训练 次 数 的 增多 ， 模 型 会 越 来 越 精确 ， 误 差 曲面 会 朝 着 最 小 点 向 下 滑动 ， 而 
且 误 差 曲线 也 在 下 降 。 

前 面 为 了 讲述 的 需要 ,“ 多 层 感知 器 神经 网 络 源 代 码 .doc” 文 件 所 示 代 码 对 误差 率 的 计 
算 以 最 终 输出 结果 为 依据 计算 ， 现 在 在 神经 网 络 输出 层 的 后 面 再 增加 一 层 最 终 输出 层 ， 对 原 
输出 层 的 结果 进行 再 次 加 工 后 输出 。 本 书 在 以 后 涉及 的 相关 代码 中 ， 如 未 特别 说 明 ， 最 终 输 
出 结果 是 指 新 增 的 最 终 输出 层 的 输出 结果 。 在 此 ， 将 误差 率 的 计算 公式 定义 为 : 


we 。 [三 ( 实 际 值 -输出 值 
误差 率 =| 一 一 笠 本 数目 


设置 好 网 络 的 相关 参数 ， 将 期 望 误 差 率 设置 为 0.3， 然 后 加 入 绘制 误差 曲线 的 代码 。 在 
列 出 代码 之 前 ， 先 介绍 一 下 前 面 没有 具体 涉及 的 问题 : 中间 隐藏 层 、 学 习 率 及 动量 参数 。 

一 般 认 为 ， 增 加 隐藏 层 数 可 以 降低 网 络 误差 ， 提 高 精度 ， 但 也 可 使 网 络 复杂 化 。 当 然 也 
有 学 者 提出 了 反对 意见 ， 但 从 实践 经 验 来 看 ， 隐 藏 层 的 数目 过 少 无 法 实现 对 复杂 数据 的 学 
习 ， 隐 藏 层 的 增多 增加 了 网 络 的 训练 时 间 和 出 现 “ 过 拟 合 ”的 机 率 。 

设计 神经 网 络 至 少 应 考虑 3 层 网 络 ， 其 中 有 一 层 隐藏 层 ， 在 这 里 将 隐藏 层 的 层 数 及 每 层 
节点 数 定 义 为 如 下 形式 : 
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隐藏 层 的 层 数 = 每 个 样本 的 元 素 个 数 x 4-2 
每 个 隐藏 层 的 节点 数 = 训练 样本 数 -1 

目前 仍 有 学 者 在 对 学 习 率 和 动量 参数 进行 研究 。 什 么 样 的 学 习 率 能 既 加 快 神经 网 络 的 训 
练 时 间 ， 同 时 又 能 提高 训练 精度 呢 ? 动量 参数 设置 为 多 少 ， 更 适合 当前 学 习 率 ， 让 误差 曲线 
在 下 降 过 程 中 尽 可 能 地 跳出 局 部 最 小 值 的 陷阱 呢 ? 

如 果 学 习 率 设 得 过 大 ， 可 能 造成 训练 过 早 停止 ， 错 过 了 误差 曲线 的 全 局 最 小 值 ; 而 设 得 
过 小 则 会 造成 训练 时 间 加 长 ， 同 时 容易 陷 人 误差 曲线 的 局 部 最 小 值 。 动 量 参数 也 存在 类 似 的 
问题 。 笔 者 认为 这 些 参数 需要 在 实践 应 用 中 进行 调试 和 测试 ， 通 过 对 训练 效果 反复 对 比 ， 才 
能 得 到 最 适合 的 参数 。 

根据 以 上 设计 思路 ， 用 Python 在 “多 层 感知 器 神经 网 络 源 代码 .doc” 文 件 代 码 的 基础 
上 实现 。 代 码 如 下 : 


#!/usr/bin/env python 

#=*= coding: utf=8 =*= 
#code:myhaspl@qq.com 

#7-12.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 

isdebug=False 

#x 和 d 样 本 初始 化 

train x = [[4,11], [7,340], [10,95], [3,29],[7,43],[5,128]] 
d =[L[1,0], [0,1], [1,0], {0,1], (1,0],[10,1]] 
warray txn=len(train x[0]) 
warray n=len(train x)-1 

# 基 本 参数 初始 化 

oldmse=10**100 

fh=1 

maxtrycount=500 

mycount=0.0 

if maxtrycount>=20: 
r=maxtrycount/10 

else: 

r=maxtrycount/2 

#sigmoid 函 数 

ann_Sigfun=None 

ann delta sigfun=None 

# 总 层 数 初始 化 ， 比 非 线性 导数 多 一 层 线性 层 
alllevel count=warray txn*4 

# 非 线 性 层 数 初始 化 

hidelevel count=alllevel count-1 
# 学 习 率 参数 

learn_r0=0.02 

learn r0*=2.5 

learn r=learn _r0 


# 动 量 参 数 
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train a0=learn r0*1.2 
train a0*=0.0015 

train a=train a0 

# 误 差 率 

expect e=0.3 

x_max=len (err) 

x_ min=1 

y_max=max (err)+0.2 
Y_min=0 . 

plt.xlabel (u"traincount") 
plt.xlim(x min, x_ max) 
plt.ylabel (u"mse") 
plt.ylim(y min, y_max) 
lp_x1 = xrange (l,len (err)+1) 
lp x2 = err 
plt.plot (lp _x1,1lp x2,'g-") 
plt.show() 


运行 代码 ， 执 行 结果 如 下 : 


# # # # # 误差 为 : 0.309623 

------- 开始 第 138 次 训练 --------- # ## # # # 误差 为 : 0.330235 
# # # # # 误差 为 : 0.284128 

训练 成 功 ， 正 在 进行 检验 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

训练 成 功 ,输出 误差 为 : 0.000000 


[0, 1] 

仿真 计算 中 

[1, 0] 

样本 : 3~29 => 
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仿真 计算 中 

和 0 汗 。 生 

===== 正 确 目标 值 ===== 

[0, 1] 

样本 : 7~43 => 

仿真 计算 中 

[ 1s 0] 

=- 正确 目标 值 = 

[1, 0] 

样本 : 5~128 => 12 
仿真 计算 中 

{ Wa a 10 
===== 正 确 目标 值 ===== 

[0 1] 0.8 
测试 值 : 8.000000~70.000000 

仿真 计算 中 吕 
[0 E 0.6 
正确 目标 值 : [1,0] 

测试 值 : 6.500000~272.000000 0.4 
仿真 计算 中 

os 0.2 
正确 目标 值 : [0,11] 

从 上 述 代码 执行 结果 中 不 难看 出 ， “5 和 50 30 100 1 


traincount 


网 络 在 139 次 训练 后 ， 达 到 了 训练 误 
差 的 期 望 值 03， 对 测试 数据 和 样本 数 人 
据 的 验证 均 成 功 。 再 来 看 看 如 图 7-18 所 示 的 误差 曲线 ， 总 体 时 现下 滑 趋 势 。 


图 7-18 中 的 曲线 并 不 平滑 ， 如 果 将 学 习 率 设 得 更 小 ， 曲 线 将 平滑 很 多 ， 训 练 次 数 也 将 


增多 。 现 在 修改 代码 ， 将 学 习 率 减少 ， 重 新 绘制 误差 曲线 图 。 


#!/usr/bin/env Python 

#=*= coding: utf=8 = 二 = 
#code:myhaspl@qq.com 

#7-13.py 

import numpy as np 

import matplotlib.pyplot as plt 

import random 

import copy 

isdebug=False 

#x 和 ad 样 本 初始 化 

train x = [[4,11], [17,340], [10,95], [3,29], [7,43]., [5,128]] 
d =[[1,0],[0,1], [1,0], [0,1], [1,0],10,1]] 
warray txn=len(train x[0]) 

warray n=len(train x)-1 

# 基 本 参数 初始 化 

oldmse=10**100 

fh=1 

maxtrycount=2000 

mycount=0.0 
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if maxtrycount>=20: 
r=maxtrycount/10 

else: 

r=maxtrycount/2 

#sigmoid 函 数 

ann_sigfun=None 

ann delta sigfun=None 

# 总 层 数 初始 化 ， 比 非 线 性 导数 多 一 层 线性 层 
alllevel count=warray txn*4 

# 非 线性 层 数 初始 化 

hidelevel count=alllevel count-1 
# 学 习 率 参 数 

learn_r0=0.005 

learl: r0*=2..5 

learn r=learn _r0 


1 

1 

1 

1 

1 

1 

1 

(CD 

Cn 

一 

尘 

1 

1 

1 

1 

1 

1 

1 

1 

1 

相 
砷 砷 砷 砷 砷 大 
砷 大大 砷 砷 太 
间 大 大 厅 砷 砷 
着 间 间 着 砷 砷 
打非 砷 大 大 砷 


训练 成 功 ， 正 在 进行 检验 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

仿真 计算 中 

训练 成 功 ， 输出 误差 为 : 0.000000 


[1, 0] 

样本 : 7~340 => 
仿真 计算 中 

EF Oe i 


[0, 1] 

样本 : 10~5 => 
仿真 计算 中 

E 工 。 坊 . 
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误差 为 : 
误差 为 : 
误差 为 : 
误差 为 : 
误差 为 : 
误差 为 : 


SG SOO 


.344559 
.347000 
.338863 
.342834 
i.353655 
.280097 
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样本 : 3===29 => 
仿真 计算 中 
EF 全 。 并 .J 


[0, 1] 

样本 : 7~43 => 
仿真 计算 中 

Ws 


[1, 0] 

样本 : 5~128 => 
仿真 计算 中 

[ 区 平 . 





[0, 1] 

测试 值 : 8 .000000~70.000000 
仿真 计算 中 

下 或 。，Q@ 林 

正确 目标 值 : [1,0] 

测试 值 : 6.500000~272.000000 
仿真 计算 中 

[ 通才 

正确 目标 值 : [0,1] 


从 执行 结果 可 看 出 ， 如 果 将 学 习 率 设 得 
更 小 ， 训 练 次 数 确 实 增多 了 ， 由 100 多 次 变 





0.0 


成 了 300 多 次 ， 相 比 上 次 的 训练 ， 每 次 训练 5 100 150 20 250 300 350 
rs 如 图 7-19 所 示 为 误 i 


相 比 图 7-18 的 误差 曲线 ， 图 7-19 所 示 的 误差 曲线 下 降 趋 势 更 加 明显 ， 平 滑 很 多 ， 上 下 
摆动 的 幅度 也 减 小 了 不 少 。 


7.1.4 “Python 神经 网 络 库 


前 面 几 节 设计 和 完善 了 线性 和 非 线性 神经 网 络 ， 并 通过 Python 实现 了 神经 网 络 ， 逐 步 
阐述 了 怎样 设计 一 个 神经 网 络 ， 如 何 改进 神经 网 络 ， 如 何 应 用 神经 网 络 完成 分 类 等 。 后 面 的 
章节 还 将 对 这 些 程序 代码 进行 改进 ， 介 绍 如 何 应 用 神经 网 络 进 行 数据 拟 合 。 

“不 用 重复 造 轮子 "， 实 践 中 除非 条 件 限制 〈 比 如: 受 限 能 入 式 环境 等 应 用 ) 必须 编写 所 
有 的 神经 网 络 代码 ， 否 则 可 以 直接 调用 神经 网 络 相 关 的 库 。 

目前 Python 关于 神经 网 络 的 库 较 多 ， 这 里 选择 纯 Python 库 实现 的 神经 网 络 库 
Neurolab， 在 第 2 章 中 已 经 介绍 过 它 的 安装 与 配置 方法 ， 在 此 不 再 介绍 ， 下 面 直 接 讲 述 如 何 
应 用 它 。 首 先进 入 Python 的 控制 台 ， 以 前 几 节 的 数据 为 例 ， 熟 悉 一 下 Neurolab 的 基本 使 用 
方法 。 


>>> import neurolab as nl 
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>>> 
>>> 
>>> 


train x = 
input=np.array (train x) 
d =[[1], [0],[1],10],[1],[10]] 


[[4,11], [7,340], [10,95], [3,29], [7,43], [5,128]] 


>>> target=np.array (d) 
>>> target 
array([[1]， 

[0]， 

LL] 

[0]， 

[1]， 

[0]]) 
>>> input 
array([[ 4, 11], 

[ 7, 340], 

[ 10, 951， 

[ 3r 29], 

[ ‘Ts ‘4315 

[ Ss E28]]) 
>>> net = nl.net.newff([[3, 10], [11, 400]], [5, 1]) 


>>> err = net.train(input, target, show=15) 
Epoch: 15; Error: 0.326594518922; 
Epoch: 30; Error: 0.0242485565317; 


The goal of learning is reached 


训练 完毕 后 ， 再 用 数据 测试 该 网 络 。 代 码 如 下 : 


>>> net.sim([[3, 10]]) 
array([[ 0.99999326]]) 
>>> net.sim([[9, 80]]) 
array([[ 0.89054486]]) 
>>> net.sim([[6.5,272]]) 
array([[ 0.05707987]]) 
>>> net.sim([[10,80]]) 
array ([[ 0.9448553]]) 
>>> net.sim([[5,125]]) 
array([[ 0.12198103]]) 
>>> net.sim([[5,100]]) 
array([[ 0.18880761]]) 


上 述 代 码 显示 ， 训 练 很 成 功 ， 测 试 数据 也 被 正确 分 类 。 


拥有 中 间 隐 藏 层 的 多 层 感知 器 在 输入 与 输出 之 间 建 立 了 映射 关系 ， 这 种 映射 关系 不 一 定 
是 某 种 数学 模型 明确 定义 的 。 如 果 随 机 生成 无 规律 的 输入 值 和 输出 值 ， 这 些 值 之 前 的 关系 完 
全 未 知 ， 那 么 是 不 能 建立 拥有 确定 数学 公式 的 映射 的 ， 但 可 通过 神经 网 络 来 建立 它们 之 间 的 


数学 模型 。 代 码 如 下 : 


>>> import numpy as np 

>>> import neurolab as nl 

>>> input = np.random.uniform(-0.5, 0.5, (10, 2)) 
>>> output = np.random.uniform(-0.5, 0.5, (10, 1)) 
>>> err = net.train(input, output, show=15) 

>>> net = nl.net.newff([[-0.5, 0.5]; [-0.5，0.5]]， 
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>>> err = net.train(input, output, show=15) 
Epoch: 15; Error: 0.0676764691815; 

Epoch: 30; Error: 0.0131047452439; 

The goal of learning is reached 

>>> err[len (err)-1] 

0.0097660775986454906 


上 述 代 码 中 的 err[len(err)-1] 表示 训练 停止 后 的 误差 率 。 可 以 看 到 ， 训 练 后 精度 很 高 ， 
误差 率 小 于 0.01。 下 面 来 编写 代码 绘制 误差 曲线 。 


>>> import matplotlib.pyplot as plt 

>>> plt.plot (err) 

[<matplotlib.lines.Line2D object at 
0x04C173B0>] 


如 图 7-20 所 示 是 生成 的 误差 曲线 ， 能 明显 看 到 误 
差 曲线 很 平滑 。 但 此 处 的 误差 来 源 数据 是 训练 15 次 采 
集 一 次 ， 前 几 节 中 的 误差 曲线 是 每 训练 一 次 采集 一 次 。 
因此 ， 图 7-20 比 前 几 节 的 误差 曲线 更 为 平滑 。 0 
通过 多 层 感知 器 神经 网 络 ， 在 这 组 没有 联系 的 随机 图 7.20 误差 曲线 
生成 的 输入 和 输出 之 间 “ 强 行 ” 建 立 了 一 种 映射 关系 。 
在 测试 时 ， 通 过 未 在 样本 中 出 现 的 输入 数据 ， 能 得 到 符合 这 种 映射 关系 的 输出 。 这 种 映射 能 
力 非常 重要 ， 是 后 面 几 章 提 到 的 数据 拟 合 、 模 式 识别 等 机 器 学 习 任务 的 基础 。 





7.2 ”统计 算法 
统计 分 析 算 法 在 机 器 学 习 中 占有 重要 地 位 ， 在 此 ， 仅 介绍 几 种 常用 算法 。 


7.2.1 平均 值 


平均 值 是 统计 学 中 最 常用 的 统计 量 ， 用 来 表明 资料 中 各 观测 值 集中 较 多 的 中 心 位 置 ， 用 
于 反映 现象 总 体 的 一 般 水 平 ， 或 分 布 的 集中 趋势 。 有 限 总 体 的 平均 值 定义 为 : 


p=Y x/N 


式 中 ,k 表 示 总 体 平均 值 ，N 表示 总 体 所 包含 的 个 体 数 。 

平均 值 的 意义 在 于 : 不 仅 可 用 它 来 反映 一 组 数据 的 一 般 情况 ， 还 可 以 进行 不 同 数据 组 
之 间 的 比较 ， 以 看 出 组 与 组 之 间 的 差别 。 下 面 随机 生成 两 组 随机 数 ， 对 它们 进行 分 析 。 代 
人 码 如 下 : 


>>> y = np.random.uniform(-0.5, 0.5, (10, 1)) 
>>> x = np.random.uniform(-0.5, 0.5, (10, 1)) 
>>> x 
array([[-0.46954884]， 

[-0.39078561]， 
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0.05531789]， 
0.06414516]， 
0.00511995]， 
-0.41105398]， 
0.23416933]， 
0 
0 
0 


1369419 ], 
-0.45076555]， 
.1808625 ]]) 

>>> Y 
array([ .381009711]， 


0 
0.12510564]， 
0.0540655 ]， 
0.250505031]， 
0.13180995]， 
0.32953768]， 
0.35940215]， 
0.00294618]， 
0.23359633]， 
[-0.49808591]]) 
>>> np.mean (y) 
-0.032300713545130311 
>>> np.mean (x) 
-0.16524661414915703 


观察 上 述 代码 的 执行 结果 可 以 看 到 , y 的 平均 值 为 -0.032300713545130311, x 的 平均 值 
为 -0.16524661414915703,，?y 的 平均 值 更 趋向 于 0， 因 此 ， 我 们 预言 : y 的 总 体 分 布 要 比 x 
偏 右 ， 更 趋向 于 0。 继 续 在 Python 控制 台中 绘制 它们 在 坐标 系 中 的 分 布 ， 以 验证 这 个 预言 。 
代码 如 下 : 


>>> z=np.zeros (10) 

>>> z 

ET dv dor Org Bp Was Dep Wr is Vr Val) 

>>> xx=np.array (zip (z,xX)) 

>>> xx 

array([[ : -0.46954884]，, 

: -0.39078561]， 

; 0.05531789]， 

+ -0.06414516]， 

.00511995]， 

: -0.41105398]， 

-0.23416933]， 

: 0.1369419 ]， 

，-0.45076555] ， 
[ ， 0.1808625 ]]) 

>>>import matplotlib.pyplot as plt 

>>> pltaxlim(=0.5 0.5) 

(=DaSe €.5) 

>>> plt.ylim(-0.01, 0.01) 

(05.0ls 0.01) 

>>> plot (yy[:,0],yy[:,1],'or') 
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[<matplotlib.lines.Line2D object at 0x04EB44D0>] 
>>> Plot (Xx[s 0] rl) '*b"') 
[<matplotlib.lines.Line2D object at 0x04CE2810>] 
>>> 


x 用 星 号 表示 , y 用 实心 圆圈 表示 ， 绘 制图 形 如 图 7-21 所 示 。 从 图 7-21 所 示 的 效果 图 
可 以 看 出 ， 星 号 表示 的 数据 比 实心 圆圈 表示 的 数据 整体 更 偏 左 ， 更 偏向 站 轴 的 负 方 向 ， 这 
个 趋势 证 实 了 我 们 刚才 的 预言 。 


0.06 


0.00 
一 0.02 
一 0.04 


一 0.06 
一 0.5 一 0.4 一 0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 


图 7-21 数据 点 分 布 


7.2.2 方差 与 标准 差 


1. 标准 差 
标准 差 是 一 组 数据 平均 值 分 散 程 度 的 一 种 度量 方式 ， 其 计算 公式 为 : 


oh- 
其 中 ，/ 为 平均 值 。 


较 大 的 标准 差 ， 代 表 大 部 分 数值 和 其 平均 值 之 间 差 异 较 大 ; 较 小 的 标准 差 ， 代 表 这 些 数 
值 较 接 近 平 均值 。 
2. 方 差 
标准 差 的 平方 就 是 方差 ， 其 计算 公式 为 : 
o? = Er (© -0)” 
N 


其 中 , /为 平均 值 。 
方差 与 标准 差 的 统计 意义 差不多 ， 都 是 反映 数据 平均 值 分 散 程度 。 


3. Python 实现 
下 面 用 Python 来 实现 标准 差 和 方差 的 计算 。 在 Python 控制 台 操 作 ， 随 机 生成 一 组 x 和 
y 值 ,y 是 均匀 分 布 ,x 是 高 斯 分 布 。 代 码 如 下 : 


>>> y = np.random.rand(100) 
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>>> x = np.random.normal(0.5, 0.00001, 100) 
>>>import matplotlib.pyplot as plt 


观察 x 的 分 布 趋势 ， 如 下 所 示 : 


>>> z=np.zeros (100) 

>>> xx=np.array (zip (x,z)) 

33> BLoE (Wel Xs [lsl11; ) 
[<matplotlib.lines.Line2D object at 0x04E06BF0>] 


x 的 分 布 如 图 7-22 所 示 ， 数 据点 在 。 0.06 









了 轴 上 分 布 不 均匀 ， 主 要 点 集中 在 0.5 

附近 (图 7-22 的 基 值 是 4.9997e-1)， 004 

少量 点 散布 在 两 边 ， 这 是 预料 之 中 的 。 ”00 | 
x 是 高 斯 分 布 ， 随 机 生成 x 时 ， 指 


定 了 参数 为 : 平均 值 0.5， 最 大 标准 差 0%% 
为 0.00001。 高 斯 分 布 就 是 正 态 分 布 ， 
具有 集中 性 的 特点 ， 即 : 正 态 曲 线 的 高 
峰 位 于 正中 央 ， 即 平均 值 所 在 的 位 置 ， -0.04 
如 果 是 一 维 空间 ， 则 集中 在 工 轴 中 平均 


一 0.06 
值 附近 0.00000 0.00001 0.00002 0.00003 0.00004 0.00005 0.00006 
0o 


+4.9997e-1 
观察 》 的 分 布 趋势 ， 如 下 所 示 : 


>>> z=np.zeros (100) 

>>> yy=np.array (zip (y,2z)) 

2>> Blot YE ,0], yy [ss1], "*b*) 
[<matplotlib.lines.Line2D object at 0x04E06BF0>] 


从 分 布 图 7-23 来 看 ,，y 均匀 分 布 在 了 轴 上 ， 没 出 现 大 量 数据 点 聚集 的 情况 。 
现在 分 别 求 出 x 和 y 的 平均 值 、 方 差 与 标准 差 。 


>>> np .mean (x)# 平 均值 
0.50000063672402462 
>>> np.var (x)# 方 差 
9.791184624177845e-11 
>>> np .std(x)# 标 准 差 
9.8950414977289737e-06 
>>> np.mean (Y) 间 平均 值 
0.52212510115195176 
>>> np.std(y)# 标 准 差 
0.28755684683792165 
>>> np.var(y)# 方 差 ”0.0 0.2 0.4 0.6 0.8 1.0 


0.082688940163367933 en 
上》 的 平均 值 与 x 接近 , 但 其 方差 和 标准 差 不 一 


样 ,x 的 方差 和 标准 差 都 比 y 小 很 多 ， 比 x 小 很 多 ， 这 说 明 x 相对 于 y 来 说 ， 有 更 多 的 数值 
集中 在 平均 值 0.5 附近 ， 这 就 是 方差 和 标准 差 的 统计 意义 。 





图 7-22 数据 点 分 布 





说 大约 广 抽 k 抽 牛 姑 放 0 六 -rr 
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7.2.3” 贝 叶 斯 算法 


1. 贝 叶 斯 定理 

贝 叶 斯 定理 是 关于 随机 事件 4 和 B 条件 概率 的 一 则 定理 ， 下 式 定义 了 在 事件 8 发 生 的 
情况 下 事件 4 发 生 的 条 件 概率 : 
P(B| A)P(A) 

P(B) 

假设 {4i} 是 事件 集合 里 的 部 分 集合 ， 其 中 ，41,42,…An 是 某 个 过 程 中 若干 可 能 的 前 提 ， 
则 P(4i) 是 对 各 前 提 条 件 出 现 可 能 性 的 事先 估计 ， 称 之 为 先 验 概率 。 如 果 在 这 个 过 程 得 到 了 
结果 B， 贝 叶 斯 公式 定义 了 P(4il8)， 它 是 对 以 B 为 前 提 下 4i 出 现 概率 的 估计 ， 则 称 P(4il8) 
为 后 验 概率 。 

对 于 任意 的 4i， 贝 叶 斯 定理 用 下 式 来 表示 : 

_ _P(B8|4)P(4) 
MAS p81ADPAD 


P(A41B)= 


下 面 是 一 个 贝 叶 斯 算法 的 经 典 例子 。 

已 知 某 种 疾病 的 发 病 率 是 0.001， 即 1000 人 中 会 有 1 个 人 得 病 ， 现 有 一 种 试剂 可 以 检验 
患者 是 否 得 病 ， 它 的 准确 率 是 0.99， 即 在 患者 确实 得 病 的 情况 下 ， 它 有 99% 的 可 能 呈现 阳 
性 。 它 的 误 报 率 是 5%， 即 在 患者 没有 得 病 的 情况 下 ， 它 有 5% 的 可 能 呈现 阳性 。 现 有 一 个 
病人 的 检验 结果 为 阳性 ， 请 问 他 确实 得 病 的 可 能 性 有 多 大 ? 

假定 4 事件 表示 得 病 ， 那 么 P(4) 为 0.001， 这 就 是 “ 先 验 概率 "， 即 没有 做 试验 之 前 预 
计 的 发 病 率 ; 假定 8 事件 表示 阳性 ， 那 么 要 计算 的 就 是 PUB)， 即 “后 验 概率 "， 表 示 做 了 
试验 以 后 对 发 病 率 的 估计 。 计 算 过 程 如 下 : 

Wm 
P(B| A)P(A)+P(B| A)P(A) 
BOD 0 ww00lg 
0.99x0.001+0.05x0.999 

通过 计算 ,得 知 P(4|8) 约 等 于 0.019， 即 使 检验 呈现 阳性 ， 病 人 得 病 的 概率 也 只 是 不 到 
2%， 也 就 是 说 ， 呈 现 “ 假 阳性 ”， 阳 性 结果 完全 不 足以 说 明 病 人 得 病 。 

贝 叶 斯 算法 在 机 器 学 习 中 主要 用 于 分 类 ， 其 基本 原理 是 : 已 知 样本 ， 首 先 计 算 P(X 
Ci)， 得 出 Ci 类 别 包含 样本 天 的 先 验 概 率 ; 然后 根据 贝 叶 斯 定理 求 后 验 概 率 P(CilX)， 得 到 
无 属于 Ci 类 别 的 后 验 概率 ; 最 后 根据 最 大 后 验 概率 判断 所 属 类 别 。 


2. 朴素 贝 叶 斯 

贝 叶 斯 算法 的 基础 是 概率 推理 ， 是 在 各 种 条 件 的 存在 不 确定 、 仅 知 其 出 现 概率 的 情况 
下 ， 完 成 推理 和 决策 任务 。 而 朴素 贝 叶 斯 算法 是 基于 独立 假设 的 ， 即 假设 样本 每 个 特征 与 其 
他 特征 都 不 相关 。 

尽管 实际 上 独立 假设 常常 是 不 准确 的 ， 但 朴素 贝 叶 斯 分 类 器 的 若干 特性 让 其 在 实践 中 能 
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够 取得 令 人 惊奇 的 效果 ， 各 类 条 件 特征 之 间 的 解 耦 意味 着 每 个 特征 的 分 布 都 可 以 独立 地 被 当 
作 一 维 分 布 来 估计， 减轻 了 由 于 维 数 灾 带 来 的 阻碍 ， 避 免 了 样本 规模 呈 指 数 增长 。 在 本 书 的 
第 10 章 中 有 关于 朴素 贝 叶 斯 算法 的 应 用 实例 。 

朴素 贝 叶 斯 算法 通常 在 自动 分 类 中 使 用 ， 算 法 的 主要 过 程 为 : 首先 ， 计 算 待 分 类 样本 特 
征 的 后 验 概率 ， 然 后 使 用 最 大 似 然 比 贝 叶 斯 分 类 法 或 最 小 风险 贝 叶 斯 分 类 法 完成 分 类 。 

当 待 分 类 样本 拥有 若干 特征 变量 F, F,, .…, F, 时 ， 该 待 分 类 样本 属于 类 C 的 后 验 概率 为 : 


p(C| RF)= POL [P(EIO 
i=] 


其 中 ,证 据 因 子 Z 是 一 个 仅 依 赖 Fi, …, F 的 缩放 因子 ， 当 特征 变量 的 值 已 知 时 是 一 个 
常数 。 

在 朴素 贝 叶 斯 算法 中 ， 后 验 概率 仅 依赖 于 两 个 因素 : 类 先 验 概率 p(C) 和 基于 独立 假设 
的 先 验 概率 p(Fi|C)。 

上 面 的 推导 结果 解决 了 待 分 类 样本 后 验 概率 的 计算 问题 ， 余 下 的 问题 是 : 既然 得 到 了 属 
于 每 个 类 别 的 后 验 概率 ， 如 何 知道 待 分 类 样本 究竟 属于 哪个 类 别 呢 ? 有 两 个 方法 : 使 用 最 大 
似 然 比 贝 叶 斯 分 类 法 和 最 小 风险 贝 叶 斯 分 类 法 。 

目前 普遍 使 用 的 是 最 大 似 然 比 贝 叶 斯 分 类 方法 ， 即 : 选 出 最 有 可 能 的 那个 ， 将 待 分 类 样 
本 划 归 到 后 验 概率 最 大 的 那 一 类 中 ， 也 称 为 最 大 后 验 概率 ( MAP ) 决策 准则 。 当 采取 最 大 
后 验 概率 决策 时 ， 相 应 的 分 类 器 公式 定义 如 下 : 


classify(f1,, f.)=argmax p(C = [Pp(F, =/.1C=0) 
© i=1 


为 了 便于 理解 ， 去 除 这 些 繁杂 的 数学 符号 ， 将 最 终 的 分 类 器 定义 为 : 
样本 所 属 类 别 =arg max(P( 类 型 ) x 样本 每 个 单独 属性 先 验 概率 的 累 乘 ) 

其 中 ，argmax 表示 选择 最 大 概率 的 类 别 为 最 终 类 别 ，P( 类别 ) 为 类 别 先 验 概率 ， 是 指 
该 类 别 本 身 的 可 能 性 有 多 少 。 

朴素 贝 叶 斯 虽然 是 基于 独立 假设 的 ， 但 实践 证 明 这 种 方法 确实 很 有 效 。 创 建 了 Viaweb 
(1998 年 ，Viaweb 成 为 最 流行 的 电子 商务 软件 ， 被 雅虎 收购 ， 改 称 雅 虎 商 店 ) 的 美国 著名 程 
序 员 Paul Graham 提出 使 用 朴素 贝 叶 斯 识别 垃圾 邮件 的 方法 ， 它 通过 使 用 字 词 等 标记 与 垃圾 
邮件 、 非 垃圾 邮件 的 关联 ， 计 算 一 封 邮件 为 垃圾 邮件 的 可 能 性 ， 以 实现 对 垃圾 邮件 的 判别 。 
有 兴趣 的 读者 可 以 查阅 下 面 网 址 : 

http://www.paulgraham.com/spam.html 

一 个 有 趣 的 例子 如 下 : 假设 有 一 台 智 能 机 器 ， 负 责 将 一 堆 未 知 水 果 分 为 3 类 : 苹果 、 桂 
圆 、 香 蕉 。 已 知 ， 这 一 堆 水 果 中 ， 苹 果 的 数量 约 占 60%， 桂 圆 的 数量 约 占 33%， 香 蕉 的 数 
量 约 占 5%。 

现在 需要 一 位 工程 师 为 这 台 机 器 设计 一 个 机 器 学 习 算法 ,这 位 工程 师 选 择 了 朴素 贝 叶 斯 
分 类 算法 ， 将 算法 过 程 定义 为 如 下 形式 : 

首先 , 计算 P( 类 别 )。 
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P( 苹果 )=0.6, P( 桂圆 )=0.35, P( 香蕉 )=0.05 
然后 ,分 别 准备 几 个 苹果 、 桂 圆 、 香 礁 的 样本 ,分 析 其 
重量 、 颜 色 、 形 状 ,得 出 它们 的 先 验 概率 。 接 着 ,重头 戏 开 
始 了 ， 识 别 未 知 水 果 。 机 器 面前 摆 了 一 个 这 样 的 水 果 (用 人 
类 的 “智能 ”， 识 别 出 这 是 一 个 香 磋 ,但 机 器 识别 出 来 不 容易 ， 
目前 人 工 智能 水 平 远 没 达到 期 望 的 水 平 )， 如 图 7-24 所 示 。 
机 器 要 做 的 识别 过 程 是 : 





(1 ) 提取 这 个 未 知 样本 的 特征 ， 重量、 颜色 、 形 状 。 重 汪汪 
量 测量 使 用 称 重 仪器 ， 颜 色 靠 色 敏 元 件 ， 形 状 使 用 图 像 识 别 
算法 。 


(2 ) 从 存储 器 中 取出 事先 计算 好 的 重量 、 颜 色 、 形 状 的 先 验 概率 ， 设 这 个 未 知 水 果 的 重 
量 、 颜 色 、 形 状 特征 值 为 a,/、a,、a;， 它们 各 自 的 先 验 概率 为 : 
P(ai| 苹果 ) =0.6, P(as| 苹果 )=0.4, P(as| 苹果 )=0.001 
P(al| 桂圆 ) =0.001, P(a,| 桂圆 )=0.9, P(as| 桂圆 )=0.001 
P(ai| 香 秦 ) =0.6, P(a:| 香蕉 )=0.9, P(as| 香蕉 )=0.95 
其 中 ,al= 重量 ，4;= 颜色 ，c= 形状 。 
(3 ) 计算 后 验 概率 。 
设 这 个 未 知 水 果 为 x， 计算 x 属于 每 个 类 别 的 概率 。 
P( 苹果 |x)=P( 苹果 |a,as,a;) 
=P( 苹果 )*(P(ai| 苹果 )*P(as| 苹果 ) *P(as| 苹果 ) 
=0.6*(0.6*0.4*0.001) 
=0.6*0.00024 
=0.000144 
Pl 桂圆 x)=P( 桂圆 |a1,42,43) 
=P( 桂圆 )*(P(ai| 桂圆 )*P(a,| 桂圆 ) *P(as| 桂圆 ) 
=0.35*(0.001*0.9*0.001) 
=0.000000315 
P( 香蕉 |x)=P( 香蕉 |a1,a2,a;) 
=P( 香蕉 )*(P(ai| 香蕉 )*P(a,| 香蕉 ) *P(as| 香蕉 ) 
=0.05*(0.6*0.9*0.95) 
=0.02565 
(4) 寻找 最 大 后 验 概率 得 到 所 属 类 别 ， 假 设 所属 类 别 为 C。 
P(Cx)=argmax(P( 苹果 |x)，P( 桂圆 |x)，P( 香蕉 加 
=argmax(0.000144,0.000000315, 0.02565) 
3 个 概率 中 ，0.02565 是 最 大 的 概率 ， 因 此 C= 香蕉。 
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(5 ) 将 这 个 水 果 分 到 香蕉 堆 中 。 


7.3 欧 氏 距离 


1. 数学 原理 

以 表示 实数 域 。 对 任意 一 个 正 整数 x， 实数 的 元 组 的 全 体 构 成 了 R 上 的 一 个 n 维 向 
量 空 间 ， 用 R" 来 表示 ， 也 称 之 为 实数 坐标 空间 。R" 中 的 元 素 写 作 大 (x, Xx, …, x,)， 这 里 的 
Xi 都 是 实数 。 

欧 氏 范 数 定 义 R*"Y 上 的 距离 函数 (或 称 度量 ) : 


d(x,y) =x—y»|EF pe 一 3 


i=] 


这 个 距离 函数 称 为 欧 几 里 得 度量 ， 也 称 欧 氏 距离 。 欧 氏 距 离 通常 用 于 衡量 两 个 点 之 间 的 
距离 ， 这 两 个 点 可 以 是 定义 在 二 维 空间 的 ， 也 可 以 是 定义 在 三 维 空间 或 者 n 维 空间 的 。 


2. 计算 实例 : 
假设 在 二 维 空间 中 ,已 定义 两 个 点 : (3,8) 和 (2,5)， 其 欧 氏 距离 如 下 : 


d=N(3-2)+(8-5) = 3.1623 


经 过 计算 ,该 距离 为 3.1623 ， 两 点 在 空间 的 表示 如 图 7-25 所 示 。 该 距离 为 直线 的 长 度 。 





T T 





Xx 
图 7-25 二 维 空间 中 两 点 的 距离 


假设 有 两 点 : (2,5,7) 和 (3,8,2)， 了 
它们 在 三 维 空间 的 欧 氏 距离 定义 为 : 和 玉生 和 


d= N(3-2)*+(5-8)*+(7-2)* =5.9161 | 

经 过 计算 , 该 距离 为 5.9161， 如 
图 7-26 所 示 。 该 距离 为 直线 的 长 度 。 

n 维 欧 氏 空间 是 一 个 点 集 ， 它 的 
每 个 点 成 可 以 表示 为 [1]，x[2]，…， y ”5 
x[n])， 其 中 x[i](i=1,，2，…, nn) 是 图 7-26 三 维 空间 中 两 点 的 距离 
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实数 ， 称 为 了 的 第 i 个 坐标 ， 两 个 点 4=(a[1]，a[2],，…,，a[n]) 和 B=(b[1], 2b[2], …,，b[n]) 
之 间 的 距离 dA(4，8B) 计算 方式 如 下 : 


d(A,B)= RA (ali]—2[i])” 
7.4 ”余弦 相似 度 


1. 数学 原理 

(1) 向 量 。 空 间 中 有 两 个 点 4 和 B，4->8B 就 是 一 个 向 
量 ,， 可 以 读 成 从 4 到 B。 它 既 有 大 小 又 有 方向 ,， 设 原点 是 
O， 给 定 空间 中 任意 一 点 C，OC 是 从 0 到 C 的 向 量 。 如 图 
7-27 所 示 就 是 一 个 定义 在 三 维 空间 上 的 向 量 04。 

(2) 点 积 (内 积 )。 对 任意 两 个 向 量 x、y， 点 积 《x, y》 
(x :定义 为 : 


<X,y>= Dy, 三 十 y+ 十 入 
i=1 


R" 中 的 两 个 向 量 通 过 点 积 的 方式 映射 成 一 个 实数 值 ， 
R" 及 其 点 积 称 为 R* 上 的 欧 几 里 得 结构 ， 可 以 将 R" 称 为 n 图 7-27 向 量 
维 欧 几 里 得 空间 ， 点 积 〈《 , 〉 称 为 欧 氏 点 积 。 

(3 ) 向 量 长 度 。 向 量子 的 长 度 定义 为 : 


IxlE Vix> = >) 


上 式 又 称 为 R" 上 的 欧 氏 范 数 。 
(4) 余弦 相似 性 。 在 欧 氏 内 积 和 欧 氏 范 数 基础 上 定义 向 量 4 和 B 之 间 的 0 余弦 相似 性 
如 下 : 





AeB a 


similarity= cos(0) = PT = spp 
yx 8) 
其 中 9 为 x 和 y 所 夹 的 内 角 。 
2. 算法 原理 


余弦 相似 性 通过 测量 两 个 向 量 点 积 空间 夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 。0 度 角 
的 余弦 值 是 1， 而 其 他 任何 角度 的 余弦 值 都 不 大 于 1， 并 且 其 最 小 值 是 -1。 

两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 两 个 向 量 有 相同 的 
指向 时 ,余弦 相似 度 的 值 为 1; 两 个 向 量 夹 角 为 90° 时 ,余弦 相似 度 的 值 为 0; 两 个 向 量 指 
向 完全 相反 的 方向 时 ,余弦 相似 度 的 值 为 -1。 
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余弦 相似 度 通常 用 于 两 个 向 量 的 夹 角 在 90° 之 内 的 情况 ， 余 弦 相 似 度 的 值 为 0 一 1。 余 
弦 相 似 度 可 用 在 任何 维度 的 向 量 比较 中 ， 因 此 在 高 
维 空间 中 的 应 用 非常 广泛 。 

在 实际 应 用 中 ， 通 常会 先 提 取 两 个 数据 的 特征 ， 
每 个 数据 各 形成 一 个 n 维 向 量 ， 然 后 通过 计算 这 两 
个 向 量 的 余弦 相似 度 来 判定 这 两 个 向 量 是 否 是 同一 
类 型 。 例 如 : 文本 分 类 、 图 像 识 别 等 都 能 使 用 余弦 
相似 度 算法 。 

设 定 一 个 常数 C (0 委 C 入 1 )，0O4 与 08 之 间 形 
成 了 夹 角 &， 余 弦 相 似 度 如 果 大 于 C， 就 认为 04 与 
08 属于 同一 类 ， 如 图 7-28 所 示 。 图 7-28 余弦 相似 度 





7.5 SVM 


1992 一 1995 年 ，Vapnik 等 在 SLT 的 基础 上 发 展 了 SVM 算法 。 它 在 解决 小 样本 、 非 线 
性 及 高 维 模式 识别 问题 中 都 表现 出 了 许多 特有 的 优势 ， 目 前 已 经 成 为 与 神经 网 络 地 位 齐名 的 
算法 ， 在 样本 量 较 小 的 情况 下 ， 其 实际 运用 效果 甚至 超过 了 神经 网 络 。 


7.5.1 数学 原理 


SVM 中 文 名 为 支持 向 量 机 ， 英 文 全 称 为 Support Vector Machine， 是 一 种 监督 式 学 习 的 
方法 。 它 拥有 坚实 的 数学 基础 ， 数 学 原理 较 复 杂 ， 涉 及 的 数学 知识 很 多 ， 如 果 将 其 相关 理 
论 以 及 推导 完全 展开 来 ， 能 写成 一 本 超过 300 页 的 书 。 因 此 ， 这 里 仅 简单 介绍 SVM 的 基 
本 原理 。 


1. 算法 策略 

SVM 首先 将 向 量 映射 到 一 个 更 高 维 的 空间 里 ， 在 其 中 建立 最 大 间隔 超 平面 ， 将 数据 分 
开 ; 然后 ， 在 超 平面 两 边 再 设立 两 个 互相 平行 的 超 平面 ; 最 后 分 
隔 超 平面 ， 使 两 个 平行 超 平面 的 距离 最 大 化 。SVM 假定 平行 超 平 
面 间 的 距离 或 差距 越 大 ， 分 类 器 的 总 误差 越 小 。 


2. 超 平 面 
超 平面 的 数学 形式 可 以 写作 : 
w* x-b=0 
其 中 x 是 超 平面 上 的 点 ，w 是 垂直 于 超 平面 的 向 量 。 
由 图 7-29 可 知 ， 平 行 超 平面 可 表示 为 以 下 两 个 方程 : 


W。X-pb=1 





w * Xx-b=-1 
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其 中 ，yw 为 超 平面 的 法 向 量 ， 是 一 个 变量 。 
如 果 数 据 是 线性 可 分 的 ， 可 找到 两 个 超 平面 ， 在 它们 之 间 没 有 任何 样本 点 ， 并 且 这 两 个 
超 平面 之 间 的 距离 也 最 大 。 
这 两 个 超 平面 之 间 的 距离 是 2/|w|， 因 此 需要 最 小 化 |w|， 因 为 这 两 个 超 平面 之 间 没 有 任 
何 样 本 点 ， 所 以 x; 还 需要 满足 以 下 两 个 条 件 中 的 一 个 : 
w* xib 宇 1 
w* x~b<-1l 
把 上 面 两 个 式 子 合 写 ， 将 变 成 : 
CI(wW。Xirb) 二 -1， 1<i<n 
3. 二 次 规划 最 优化 
二 次 规划 问题 可 以 用 以 下 形式 来 描述 。 
(1 ) 函数 ftx) 定义 为 : 
flx)=(1/2)x' QOxtc'™x 
其 中 , x" 是 x 的 转 置 。 
(2 ) 函数 受到 一 个 或 更 多 如 下 形式 的 限制 条 件 : 
Ax<b 
Ex=d 
如 果 0 是 半 正 定 和 矩阵 ， 那 么 ,foo 是 一 个 凸 函数 。 如 果 有 至 少 一 个 向 量 x 满足 约束 而 且 
ftx) 在 可 行 域 有 下 界 ， 二 次 规划 问题 就 有 一 个 全 局 最 小 值 x。 如 果 0 是 正定 和 矩阵， 那么 全 局 
最 小 值 就 是 唯一 的 。 如 果 CO=0， 二 次 规划 问题 就 变 成 线性 规划 问题 。 
再 来 看 SVM 算法， 该 算法 提出 了 两 个 要 求 : 第 一 ， 超 平面 之 间 没 有 任何 样本 点 ; 第 二 ， 
超 平面 之 间 的 距离 最 大 。 这 样 就 形成 了 二 次 规划 最 优化 问题 。 
minimize: la) 上 上 +c 5 
subject to y,(w xitb)1-¢, Vi 
gC 宇 0, Vi 
这 也 是 一 个 二 次 凸 规 划 问 题 。 
根据 优化 理论 ， 一 个 点 x 成 为 全 局 最 小 值 的 必要 条 件 是 满足 Karush-Kuhn-Tucker 
(KKT ) 条 件 ， 当 ftx) 是 凸 函 数 时 ，KKT 条 件 也 是 充分 条 件 。 因 此 通过 拉 格 朗 日 变换 以 及 
KKT 定理 推导 ， 二 次 凸 规划 最 优化 问题 转变 为 : 


minimize :W(a) = 2 一 2aiapDyxm 
subject to 0<a,<C, ia =0 
然后 引入 核 函数 ， 最 后 的 目标 函数 为 ; 


maximize:W(a)= 20, -3 oy KG,) 
i=l i=1 j=l 
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Subject to : > ol =0,0<a<C,vi 
i=!l 
改写 为 矩阵 相 乘 的 格式 ， 得 到 : 
minimize: f' (0)=70"Qa-e'a 
subjcct to y a=0 0<a<C,i=1,…, 1 


最 终 的 目标 变 成 了 : 通过 训练 样本 寻找 a， 使 得 下 式 最 小 : 
3 Qa-e'a 
核 函 数 可 以 是 线性 的 或 非 线 性 的 ， 线 性 核 函 数 仅 能 完成 线性 分 类 ， 而 非 线 性 核 函 数 既 可 
以 完成 线性 分 类 ， 也 可 以 完成 非 线性 分 类 。 


7.5.2 SMO 算法 


SMO ( 最 小 贯 序列 方法 ) 是 改进 的 SVM 训练 算法 ， 同 其 他 SVM 训练 算法 一 样 ，SMO 
会 将 一 个 大 的 QP 问题 分 解 为 一 系列 小 的 QP 问题 。 与 其 他 算法 不 一 样 的 是 ，SMO 处 理 的 是 
规模 最 小 的 QP 问题 ， 因 此 能 够 快速 解决 并 获得 解析 解 ， 而 且 能 够 有 效 地 改善 空间 和 时 间 复 

SMO 基本 原理 是 : 每 次 仅 选择 两 个 元 素 共 同 优 化 ， 在 其 他 参数 固定 的 前 提 下 ， 找 到 这 
两 个 参数 的 最 优 值 ， 并 更 新 相应 的 a 向量 ， 而 这 两 个 点 乘 子 的 优化 可 以 获得 解析 解 。 


7.5.3 ”算法 应 用 

SVM 算法 的 数学 原理 较 难 懂 ， 推 导 过 程 复 杂 ， 掌 握 SVM 算法 的 关键 在 于 动手 实践 。 通 
过 编写 代码 ， 运 用 SVM 算法 解决 机 器 学 习 问 题 才 能 真正 理解 它 。mlpy 库 提供 了 SVM 算法 
的 相关 函数 ， 本 节 将 以 mlpy 库 为 例 进 行 阐述 ， 请 按 第 2 章 的 指导 安装 mlpy 库 。 


1. 核 函数 

mlpy 的 SVM 算法 库 提供 以 下 核 函数 。 

线性 核 函数 通常 表现 为 直线 方程 ， 函 数 名 为 linear。 
非 线性 核 函 数 如 下 : 

(1 ) 多 项 式 函 数 ， 函 数 名 为 poly。 

(2 ) 径 向 基 函 数 ， 函 数 名 为 rbf。 

(3 ) sigmoid 函数 ， 函 数 名 为 sigmoid。 


2. 线性 分 类 
下 面 使 用 线性 核 作 为 SVM 的 核 函 数 ， 对 下 面 的 数据 进行 分 类 。 
臣 三 放 人 7 8320 [LS 3335]7 [L535] 7 [和 LO [Ya80]s [749]j 


Y= [1zlr00r ,0 071] 


创建 SVM 类 的 实例 ， 并 使 用 learn 方法 训练 SVM。 
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X=nP .array (x) 
y=np.array (y) 

svm = mlpy.LibSvm() 
svm.learn (x, y) 


使 用 pred 方法 对 未 知 数据 进行 分 类 。 代 码 如 下 : 


ty=svm.pred (tlp x[ii]) 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 

#=*~ coding: Utf=8 -= 
#email:myhaspl@qq.com 
#author: 麦 好 

#7-14.py 

import numpy as np 

import matplotlib.pyplot as plt 
import mlpy 

Beint loading ei’ 


x = [TlBl, 3i20Ty Tl, TST, C335) L535] ,14, A401 [7.80)]y L649]] 
y=[1;1:0s50s 1 0 0;1]l 
showpoint=['ro','bo'] 
tshowpoint=['r*','b*'] 
x=np.array (x) 
y=np.array (y) 
svm = mlpy.LibSvm() 
svm.learn (x, y) 
lp x1 = x[:;0] 
lp. x2 = Xx[ :sl1] 
xmin, xmax = np.min(lp x1)-1, np.max (lp x1)+1 
ymin, ymax = np.min(lp x2)-1, np.max (lp x2)+1 
plt.subplot (111) 
plt.xlabel (u"x") 
plt.xlim(xmin, xmax) 
plt.ylabel (u"y") 
plt.ylim(ymin, ymax) 
# 显 示 样 本 点 
for ii in xrange(0,1len (x)): 

ty=svm.pred (x[ii]) 

i YY>Gs 

plt.plot (lp x1[ii], lp x2[ii], showpoint[int (ty)]) 
else: 
plt.plot (lp x1[ii], lp x2[ii], showpoint[int (ty)]) 


# 未 知 样本 分 类 

tlp xl=np.random.rand(50)* (xmax-xmin)+xmin 

tlp x2=np.random.rand (50)* (ymax-ymin)+xmin 

tlp x=np.array (zip (tlp xl,tlp x2)) 

for ii in xrange(0,1en(tlp x)): 
ty=svm.pred (tlp x[ii]) 
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if ty>0s 
plt.plot (tlp xl1[ii],tlp x2[ii], tshowpoint[int (ty)]) 
else: 
plt.plot (tlp xl1[iil],tlp x2[ii], tshowpoint[int (ty)]) 
Plt.show() 


上 述 代码 中 ， 随 机 生成 了 50 个 数据 作为 待 分 类 未 知 样本 。 如 图 7-30 所 示 是 程序 生成 的 
分 类 散 点 图 ， 实 心 圆圈 和 星 号 分 别 代 表 两 类 数据 。 从 图 上 能 直观 看 到 ， 分 类 很 成 功 。 








图 7-30 分 类 散 点 图 


3. 非 线性 分 类 

非 线 性 分 类 需要 选择 非 线 性 核 函 数 ， 这 里 选择 poly 作为 SVM 的 核 函 数 。 尝 试 将 分 属于 
下 面 两 个 函数 的 坐标 点 分 开 : 

第 一 类 : y=x^a+b (a<=2,，abs(b)<10) 

第 二 类 : y=x^atb (a>=3，abs(b)<10) 

(1 ) 设置 样本 数据 。 代 码 如 下 : 


x= [[1,1],[2,4],[3,12],[9,70], [5,130], [4,13], [5,29],[5,135], [4,68], [10,1000], [8, 
520], [7,340], [6,40], [10,150]] 
y=[1,1,1,1,0,1,1,0,0,0,0,0,1,1] 


(2 ) 设置 SVM 的 核 函 数 ， 进 行 训练 。 


x=np.array (x) 

y=np.array (y) |, 

svm = mlpy.LibSsvm(svm type='c svc', kernel type='poly', gamma=10) 
svm.learn (x, y) 


(3 ) 随机 产生 待 分 类 数据 ， 进 行 测试 。 代 码 如 下 : 


tlp xl0=np.random.rand (100)* (xmax-xmin)+xmin 
tlp x20=tlp x10**3+np.random.rand(100)*20-10 
tlp_xll=np.random.rand (100)* (xmax-xmin)+xmin 
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tlp x21=tlp xll**2+np.random.rand(100)*20-10 
tlp_x30=np.random.rand (50)* (xmax-xmin)+xmin 

tlp x31=tlp x30**(round(np.random.rand()*6,0)+3)+np.random.rand(50)*10-5 
tlp x40=np.random.rand (50)* (xmax-xmin)+xmin 

tlp x41=tlp x30** (round(np.random.rand(),0)+1)+np.random.rand(50)*10-5 


如 图 7-31 所 示 是 程序 生成 的 散 点 图 ， 实 心 圆圈 和 星 号 分 别 代表 不 同类 的 数据 。 数 据点 
被 成 功 划 分 为 两 类 : 图 的 左上 部 呈现 递增 曲线 趋势 
的 数据 点 划分 到 了 第 2 类 函数 ， 其 余 被 划分 到 第 1 1 ooo 
类 。 


完整 的 Python 代码 如 下 : a 
#!/usr/bin/env python 600 
#=*= eodings utf-8 = 一 > 
#email:myhaspl@qq.com 400 
#author: 麦 好 

#7-15.py 200 


import numpy as np 
import matplotlib.pyplot as plt 
import mlpy 





图 7-31 分 类 散 点 图 


print 'loading ,si 


二 [[1ijyil]y {275 4]; L312]y1970]i [S513017t4,;13]; [5;29] 0 [575135]; [4765] [10;1000]5 [8 
:520], [7,340],[6,40], [10,150]] 

y= [ls 1 17 1 0,1 1075070 0051sE] 

showpoint=['ro','r*"] 

tshowpoint=['bo','b*"'] 

x=np.array (x) 

y=np.array (y) 

svm = mlpy.LibSvm(svm type='c_ svc', kernel type='poly', gamma=50) 
svm.learn (x, y) 

lp xl1 = x[:,0] 

lp _ x2 Ls 3] 

xmin, xmax = np.min(lp x1)-0.5, np.max (lp _ x1)+0.5 

ymin, ymax = np.min(lp x2)-0.5, np.max (lp x2)+0.5 

plt.subplot (111) 

plt.xlabel (ux"™) 

plt.xlim(xmin, xmax) 

plt.ylabel (u"y") 

plt.ylim(ymin, ymax) 


hl 


# 显 示 样 本 点 
for ii in xrange(0,1len (x)): 
ty=svm.pred (x[ii]) 
if ty>0: 
plt.plot (lp x1[ii], lp x2[ii], showpoint[int (ty)]) 
else: 
plt.plot (lp x1[ii], lp x2[ii], showpoint[int (ty)]) 
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# 未 知 样本 分 类 

tlp xl0=np.random.rand(100)* (xmax-xmin)+xmin 

tlp x20=tlp xl0**3+t+np.random.rand(100)*20-10 

tlp_ x1l1=np.random.rand (100)* (xmax-xmin)+xmin 

tlp x21=tlp xll**2+np.random.rand(100)*20-10 

tlp x30=np.random.rand (50)* (xmax-xmin)+xmin 

tlp x31l=tlp x30**(round(np.random.rand()*6,0)+3)+np.random.rand(50)*10-5 
tlp x40=np.random.rand(50)* (xmax-xmin)+xmin 

tlp x41=tlp x30** (round(np.random.rand(),0)+1)+np.random.rand(50)*10-5 


tlp xl=tlp x10.tolist()+tlp xll.tolist()+tlp x30.tolist()+tlp x40.tolist() 
tlp x2=tlp x20.tolist()+tlp x21.tolist()+tlp x31.tolist()+tlp x41.tolist() 


tlp x=np.array (zip (tlp xl,tlp x2)) 
for ii in xrange(0,len(tlp x)): 
ty=svm.pred (tlp x[ii]) 
if ty>0: 
plt.plot (tlp xl1[ii],tlp x2[ii], tshowpoint[int (ty)]) 
else: 
plt.plot (tlp x1[ii],tlp x2[ii], tshowpoint[int (ty)]) 
plt.show() 


下 面 以 rbf 为 核 函 数 完成 螺旋 型 空间 下 的 分 类 。 代 码 如 下 : 


#!/usr/bin/env python 

#=*= coding: utf=8 =*= 

#7-16.py 

import numpy as np 

import matplotlib.pyplot as pilt 

import mlpy 

f = np.loadtxt ("spiral.data") 

二 交 王 交 TE 2 和 ] 

svm = mlpy.LibSvm(svm type='c svc', kernel type='rbf', gamma=100) 
svm.learn (x, y) 











xmin, xmax = x[:,0] .min()-0.1, 1.5 T T T Tr 

x[:,0] .max()+0.1 

ymin;s ymax = x¥[lsy1] .min()-0.1, 1.0 

xX[%1] .max()t0s1 

xx, yy = np.meshgridl(np.arange (xmin, 0.5 

xmax, 0.01), np.arange (ymin, ymax, 

C201] 0.0 

xnew = np.c_ [xx.ravel(), yy.ravel()] 

ynew = svm.pred (xnew) .reshape (xx. 一 0.5 

shape) 

fig = plt.figure(1) 一 1.0 

plt.pcolormesh (xx, yy, ynew) 

plt.scatter(x[:,0], x[:,1], c=y) 二 下 广 J 1 

plt. show () 一 1.5 一 1.0 一 0.5 0.0 0.5 1.0 

如 图 7-32 所 示 为 分 类 的 效果 图 。 两 类 图 7-32 SVM 分 类 的 效果 图 
数据 被 螺旋 型 分 界线 划分 。 
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7.6 回归 算法 


回归 分 析 是 统计 学 上 分 析 数 据 的 一 种 方法 ， 目 的 在 于 了 解 两 个 或 多 个 变量 间 是 否 相关 ， 
以 及 相关 的 方向 与 强度 ， 并 建立 数学 模型 ， 以 便 观察 特定 变量 来 预测 研究 者 感 兴趣 的 变量 ， 
它 建 立 了 因 变 量 与 自 变 量 之 间 的 关系 模型 。 


7.6.1 线性 代数 基础 

线性 代数 是 数学 的 一 个 分 支 ， 它 的 研究 对 象 是 向 量 、 向 量 空间 (或 称 线性 空间 )、 线 性 
变换 和 有 限 维 的 线性 方程 组 。 向 量 空间 是 现代 数学 的 一 个 重要 课题 ， 线 性 代数 广泛 地 应 用 于 
抽象 代数 和 泛 函 分 析 中 ， 并 能 通过 解析 几何 具体 表示 。 线 性 代数 在 机 器 学 习 理论 体系 中 的 地 
位 举足轻重 。 


1. 伴随 和 矩阵 

在 线性 代数 中 ， 一 个 方形 矩阵 的 伴随 矩阵 是 一 个 类 似 于 逆 和 矩阵 的 概念 。 如 果 和 矩阵 可 逆 ， 
那么 它 的 道 矩 阵 和 它 的 伴随 矩阵 之 间 只 差 一 个 系数 。 

和 矩阵 4 的 伴随 矩阵 是 4 的 余子 矩阵 的 转 置 矩 阵 ， 具 体 定 义 如 下 : 


Id， i=] 
设 A=(aj)nxn, 则 anAntanAnt***t+anAj= I i 
即 44*=A*4=|4|E 
其 中 ， 
40 42 .4m 
4 422 ... An 六 
= =(A;)=(A;) 
4 A,, Se pT 
证 1 
若 4 可 道 , 则 4 的 伴随 矩阵 4#*=| 4|4 Dr 


2. 方 阵 的 行列 式 运 算 
设 4、B 为 n 阶 方 阵 ， 则 |48|=|4II8|=|BIl4|=|84| 
但 |4+8B|=|4|+t|8| 不 一 定 成 立 。 


3. 矩阵 与 方 阵 
Ql Ql2 … Qi 
m xn 个 数 aj 排 成 m 行 n 列 的 表格 (Qi az … 2 | 称 为 矩阵 ， 简 记 为 4， 或 (ap)wxe 若 


Gml Um?2 Cr 


m=n， 则 称 4 是 款 阶 矩阵 或 二 阶 方 阵 。 


4. 矩阵 的 基本 运算 
设 4=(ay)，B=(b,) 是 两 个 mxn 和 矩阵 ， 则 mxn 和 矩阵 C=(cy)=ajtby 称 为 矩阵 4 与 B 的 和 ， 
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记 为 4+B=C。 


设 4=(ay) 是 mxn 和 矩阵 ,是 一 个 常数 ， 则 mxn 和 矩阵 (kay) 称 为 数 大 与 矩阵 4 的 数 乘 ， 


记 为 k4。 


设 4=(ay) 是 mxn 和 矩阵 ，B=(b;) 是 nxs 矩阵， 那么 mxs 甜 阵 C=(cy)， 其 中 ，cj=anby+ 


anbyt***+tainbn— > Qi 称 为 4 与 B 的 乘积 ， 记 为 C=4B 


5. 矩阵 的 秩 
n,r(A)=n 
4 为, 
0, r(A)<n-1 


6. 线性 相关 与 线性 无 关 
a, 02，,…, as 线性 相关 合 至 少 有 一 个 向 量 可 以 用 其 余 向 量 线性 表示 。 


若 x xc …, 0 线性 无 关 ，a, 4s,…, 4,, 8 线性 相关 全 2 可 以 由 ai 0,,…， 


7.6.2 ”最 小 二 乘法 原理 


1. 范 数 
在 向 量 空间 R(C") 中 ， 设 寻 Cc xz …, xz ， 向 量 范 数 定义 如 下 : 
x 的 2- 范 数 或 欧 氏 范 数 计算 公式 为 : 

| xl =(Pal 十 pa 十 …… 十 pe 


x 的 1- 范 数 计算 公式 为 : 





| x ,=eltlxalt* +l 
x 的 % 范 数 或 最 大 范 数 计算 公式 为 : 
| zl = max|z| 
x 的 pp 范 数 计算 公式 为 : 
lx l=(paP thatthe ) 
4 的 行 范 数 计算 公式 如 下 : 
max | 47 
A = 上 
| 
4 的 列 范 数 计算 公式 如 下 : 
1 Al mr ee Do 
4 的 2- 范 数 或 谱 范 数 计算 公式 如 下 : 
HI 人 -VC 
其 中 (4"4) 为 474 的 最 大 特征 值 。 
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4, 唯一 线性 表示 。 
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2. 算法 目标 

线性 回归 算法 通过 适合 的 参数 ， 使 函数 与 观测 值 之 差 的 平方 和 最 小 ， 即 : 
min Dy, —») 

(1 ) 二 元 线性 回归 。 首 先 将 线性 回归 函数 定义 为 如 下 形式 : 


y=xotxit 


图 mb 


Za-D0-») 
2 


Xo 一 了 一 XI 下 


根据 其 算法 目标 ， 得 到 下 式 : 


min |4x-pl, 














解 上 式 ， 得 到 如 下 形式 : 


其 中 =>4， 为 + 什 的 算术 平均 值 。 
(2 ) 多 元 线性 回归 。 将 多 个 不 相关 变量 4，…, 4,， 组 成 下 面 线性 函数 : 
Ht ts; Xo, X1,***, Xg)=Xotxitit*""+x 


9 fy 
上 式 可 写成 4x=b 的 形式 ， 如 下 所 示 : 


下 攻 ty oe Wis Xo yi 
Xx 

.1 ts1 EE b, CE ty 1 ] 

。 2 : 

1 本 = ， 本 y; 

和 Xi : 

1 加 1 人 ty Ye fa yn 
q 


接着 求解 目标 函数 : 
min |4x-b ,4EC"x DEC" 
其 特 解 为 4 的 广义 逆 矩 阵 与 六 的 乘积 ， 这 同时 也 是 2- 范 数 极 小 的 解 ， 其 通 解 为 特 解 加 
上 4 的 零 空 间 。 


7.6.3 线性 回归 


1. 回归 模型 求解 

上 节 讲 述 了 一 些 多 元 线性 回归 模型 ， 可 表示 为 4x=b 的 形式 ， 求 解 回归 模型 就 是 求解 4 
代表 的 参数 值 的 估计 值 ， 求 解 过 程 就 是 线性 回归 的 过 程 。 根 据 最 小 二 乘 原理 及 相关 数学 推 
导 ， 参 数 估计 值 为 : 
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B=(X'X) LT 
2. 一 元 线性 回归 
如 果 随 机 变量 y 与 变量 x 之 间 呈 现 某 种 线性 关系 ， 则 y 与 x 之 间 一 元 线性 回归 模型 为 : 
P=atbx 


上 式 也 称 变量 y 对 变量 x 的 一 元 线性 回归 方程 ，a、2 称 为 回归 系数 。 
根据 前 面 讲 述 的 最 小 二 乘法 原理 ， 用 Python 编码 实现 。 


#!/usr/bin/env Python 

# = 二 -Coding utf=8 ~—*= 
#code:myhaspl@qq.com 
#7-17.py 


import matplotlib.pyplot as plt 
x =[1,2,3,3,6,12,11] 

Y =[3,57,8745,12,26,20] 

average x=float (sum(x))//len(x) 
average y=float (sum(y))/len(y) 
x_sub=map( (lambda x:x-average x),x) 
Y_sub=map ( (lambda x:x-average y),y) 
x_sub pow2=map( (lambda x:x**2),x_ sub) 
y_sub pow2=map( (lambda x:x**2),y_ sub) 
x_ y=map( (lambda x,y:x*y),x_ sub,y_sub) 
a=float (sum(x_Y) ) /sum(x_sub Pow2) 
b=average y-a*average x 
pltsxlabel("X") 

blit. viabDel("Yy") 

plt.plot (x: Yr '*') 
plt.plot([0,15], [0*a+b,15*a+b]) 
plt .grid!() 

六 入 呈 志 和 凡 旋 二 人 
format (a,b)) 

plt.show() 


如 图 7-33 所 示 为 程序 绘制 的 散 点 
图 ， 这 些 数据 点 呈 明 显 的 线性 趋势 ， 
程序 将 它们 的 线性 趋势 绘制 成 一 条 回 
归 线 ， 回 归 效 果 不 错 。 


3. 多 元 线性 回归 

一 元 线性 回归 是 指 将 一 个 主要 影 
响 因素 作为 自 变 量 ， 分 析 自 变量 的 变 
化 如 何 引 起 因 变量 的 变化 。 在 现实 问 
题 的 研究 中 ， 因 变量 的 变化 往往 受 几 
个 重要 因素 的 影响 ， 此 时 就 需要 用 两 x 
个 或 两 个 以 上 的 影响 因素 作为 自 变 量 图 7-33 散 点 图 


1.9087635054*x+1.7418967587 
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来 解释 因 变 量 的 变化 ， 这 就 是 多 元 回归 。 
设 y 为 因 变 量 , x, x,,…, xi 为 自 变 量 ， 并 且 自 变量 与 因 变 量 之 间 为 线性 关系 时 ， 则 多 元 
线性 回归 模型 为 : 
J 王 Do+DIXI 二 D2xX2 十 … 十 DECEe 
根据 最 小 二 乘法 ,使 用 Python 来 实现 这 个 回归 模型 。 代 码 如 下 : 


#!/usr/bin/env Python 
# -*— coding: utf=8 一 * 一 
#code:myhaspl@qq.com 
#7-18.py 
import numpy as np 
x =np.matrix([[7,2,3],[3,7,17], [11,3,5]],dtype=np.float64) 
y =np.matrix([28,40,44],dtype=np.float64).T 
b=(x.T*x) .I*x.T*y 
print u" 参 数 项 矩阵 为 {0}".format (b) 
i=0 
cb=[] 
while i<3: 
cb.append (b[i,0]) 
i+=1 
temp_e=y-x*b 
mye=temp e.sum()/temp e.size 
e=np.matrix([mye,mye,myel]).T 
print "y=%f*xl1+%f*x2+%f*x3+%f"% (cb[0],cb[l1],cb[2],mye) 


上 述 代 码 计算 了 参数 估计 值 ， 并 列 出 了 多 元 线性 回归 方程 。 


参数 项 矩阵 为 [[ 3.] 

[ 2.] 

[ 1.]] 
y=3.000000*x1+2.000000*x2+1.000000*x3+-0.000000 


7.6.4 ”多 元 非 线 性 回归 
如 果 自 变量 成, 为, …, 成 与 因 变量 了 皆 具 有 非 线 性 关系 ， 或 者 有 的 为 非 线 性 ， 有 的 为 线 
性 ， 则 需要 选择 多 元 非 线 性 回归 模型 。 非 线性 回归 方程 很 难 求解 ， 通 常 把 非 线 性 回归 转化 为 


线性 回归 ， 然 后 应 用 最 小 二 乘法 求解 。 
例如 ， 非 线性 回归 方程 模型 为 : 


1 b 
一 二 a 十 一 
y 过 
首先 ， 进 行 变量 变换 。 
x-l 
x 
y= 
了 
经 过 变换 后 ， 将 其 化 为 线性 模型 。 
Y=atbX 
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然后 ， 再 用 最 小 二 乘法 求 出 参数 的 估计 值 。 最 后 经 过 适当 的 变换 ， 得 到 所 求 回 归 曲 线 。 


1. 一 元 三 次 回归 模型 
一 元 三 次 回归 模 为 : 

=botbxtbyx t+bax 
用 Python 代码 实现 


#!/usr/bin/env Python 

# 二 = coding: Mtf=8 =*= 

#code:myhaspl@qq.com 

#7-19.py 

#y=b1l*x+b2* (x^2)+b3* (x^3) 

import numpy as np 

import matplotlib.pyplot as plt 

z=np.matrix([3,1.4,1.9]).T 

myx =np.matrix([[7],[3],[9]],dtype=np.float64) 

x = np.matrix([[myx[0,0],myx[0,0] **2,myx[0,0]**3],\ 
[myx [1,0] ,myx[1,0]**2,myx[1,0]**3],\ 
[my [2,0] myx [L270] **27mYX[270]**3] 7:N 
dtype=np.float64) 

Y =xX*z 

b= (x.T*x): .I*x.T*y 

print u" 参 数 项 矩阵 为 {0}".format (b) 

i=0 

cb=[] 

while i<3: 

cb.append (b[i,0]) 
i+=1 

temp_ e=y-x*b 

mye=temp e.sum()/temp e.size 

e=np.matrix([mye,mye,mye]).T 


print "y=%f*xt+%f*x^2+%f*x^3+%f"% (cb[0] ,cb[1],cb[2] ,mye) 


pltx=np.linspace (0,10,1000) 
plty=cb[0] x*pltxtcb[1]* (pltx**2) +cb[2]* (p 





plt.plot (myx, y, "*") 
plt.plot (pltx,plty) 
plt.show() 


程序 运行 后 ， 计 算 参 数 估计 值 以 及 最 终 的 回 





归 方 程 。 
参数 项 矩阵 为 [[ 3. ] 
[ 1.4] 
[ 1.9]] 
y=3.000000*x+1 .400000*x^2+1 .900000*x^3+ 0 
0.000000 0 吕 4 6 8 
非 线性 回归 方程 表现 为 曲线 ， 如 图 7-34 所 图 7-34 回归 曲线 
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示 是 上 述 代 码 生 成 的 回归 曲线 。 


2. 二 元 二 次 多 项 式 回归 方程 
二 元 二 次 多 项 式 回归 方程 为 : 
Patbuxitbyxztbiaxitb2x2tb 11x22X1X2 
令 bi=b1, bs=b», bs3=b1,, bs=b2,, bs=b11 x22 
X3=X1, X42, Xs=X1 * Ky 
这 样 上 式 即 可 化 为 以 下 五 元 一 次 线性 回归 方程 : 
P=atbixitbyxytbyxstbaxatbsxs 
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根据 推导 结果 来 看 ， 可 以 按 多 元 线性 回归 方法 计算 各 偏 回 归 系 数 ， 建 立 二 元 二 次 多 项 式 


回归 方程 。 
下 面 用 Python 求解 二 元 二 次 多 项 式 回归 方程 。 


#!/usr/bin/env Python 

=*= Godings UtE=8 <=*= 
#code:myhaspl@qq.com 

#7-20 .py 
#y=bl*xl1+b2* (x2^2) +b3*xl*x2 
import numpy as np 


z=1ip.matrix([3yl.4rl1.9])..T 
myx =np.matrix([[7,3],[3,17],[11,5]],dtype=np.float64) 
x = np.matrix([[myx[0,0],myx[0,1]**2,myx[0,0]*myx[0,1]],\ 
[myx[1,0],myx[1,1]**2,myx[1,0]*myx[1,1]],\ 
[myx [2,0] ,myx[2,1]**2,myx[2,0]*myx[2,1]]],\ 
dtype=np.float64) 
Y =XxZ 
b= (区 2) ,Te TY 
print u" 参 数 项 矩阵 为 {0}".format (b) 
i=0 
cb=[] 
while i<3: 
cb.append (b[i,0]) 
i+=1 
temp_e=y-x*b 
mye=temp _e.sum()/temp e.size 
e=np.matrix([mye,mye,mye]).T 


print "y=%f*xl+%f*x2^2+%f*xl*x2+%f"% (cb[0],cb[1],cb[2] ,mye) 


程序 计算 回归 方程 的 参数 后 ， 列 出 回归 方程 ， 如 下 所 示 : 


参数 项 矩阵 为 [[ 3. ] 

[ 1.4] 

[ 1.9]] 

y=3.000000*x1+1.400000*x2^2+1 .900000*x1l*x2+-0.000000 


7.6.5 ”上 岭 回归 方法 


只 有 正方 形 (nxn ) 的 矩阵 〈 也 称 为 方 阵 )， 才 可 能 有 但 非 必然 有 道 矩 阵 。 若 方 阵 4 的 
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逆 和 矩阵 存在 ， 则 称 4 为 非 奇异 方 阵 或 可 逆 方 阵 。 回 顾 一 下 参数 项 的 求解 公式 : 
B= 

这 样 就 产生 了 一 个 问题 如果 奇异 矩阵 或 非 方 阵 的 矩阵 不 存在 逆 和 矩阵 ， 即 上 式 中 的 逆 矩 
阵 不 存在 了 ， 怎 样 求解 参数 项 呢 ? 

此 外 ， 某 些 自 变 量 之 间 可 能 存在 共 线 性 ， 这 也 给 求 逆 带 来 了 麻烦 。 岭 回归 方法 可 以 解决 
这 个 问题 ， 它 是 一 种 专用 于 共 线 性 数据 分 析 的 有 偏 估计 回归 方法 ， 实 质 上 它 是 一 种 改良 的 最 
小 二 乘 估计 法 ， 是 通过 放弃 最 小 二 乘法 的 无 偏 性 ， 以 损失 部 分 信息 、 降 低 精度 为 代价 ， 获 得 
回归 系数 更 为 符合 实际 、 更 可 靠 的 回归 方法 ， 对 病态 数据 的 耐 受 性 远 远 强 于 最 小 二 乘法 。 其 
基本 原理 是 : 

给 参数 项 求解 公式 中 的 XXX 部 分 加 上 正常 数 矩 阵 应 (人 庆 0)， 则 和 对 如 接近 奇异 的 程度 
较 小 ， 如 果 XX+KI 可逆， 则 参数 的 求解 公式 变 为 : 

B (R=(YX+ED XY 

其 路 称 为 岭 参数 。B (hk) 作为 下 的 估计 应 比 最 小 二 乘 估计 及 稳定 ， 当 本 0 时 ， 岭 回归 
估计 就 是 普通 的 最 小 二 乘 估 计 。 因 为 岭 参数 不 是 唯一 确定 的 ， 所 以 得 到 的 岭 回 归 估 计 和 (4) 
实际 是 对 回归 参数 8 的 估计 值 。 

选择 一 个 适合 的 岭 参 数 很 重要 ， 岭 迹 法 是 方法 之 一 。 选 择 的 原则 是 : 

口 各 回归 系数 的 岭 估计 基本 稳定 。 

口 系数 符号 变 得 合理 。 

口 残 差 平方 和 。 

口 取 使 方程 基本 稳定 的 最 小 天 值 。 


7.6.6 ” 伪 逆 方法 

除了 岭 回归 方法 ， 伪 逆 方 法 也 是 一 种 不 错 的 方法 ， 它 是 对 逆 阵 的 推广 。 一 般 所 说 的 伪 逆 
是 指 MoorePenrose 伪 逆 ， 它 是 由 E. H. Moore 和 Roger Penrose 分 别 独 立 提出 的 。 

一 个 与 4 的 转 置 矩阵 4" 同型 的 矩阵 全 ， 满 足 : 4X4=4，X4X=X。 此 时 ， 称 和 矩阵 半 为 矩 
阵 4 的 伪 逆 也 称 为 广义 逆 矩 阵 。 

numpy 提供 了 求 伪 逆 的 函数 linalg.pinv()， 可 调用 numpy 的 这 个 方法 对 一 组 数据 进行 回 
归 分 析 ， 这 组 数据 不 适合 用 前 面 介绍 的 非 线 性 回归 算法 计算 。 代 码 如 下 : 


#!/usr/bin/env python 

# -—*- coding: utf-8 -*-— 
#code:myhaspl@qq.com 

#7-21 .py 
#y=bl*xl+tb2*x24+b3* (x1^2) Tb4x (x2^2)+b5*xl*x2 
import numpy as np 


2Z=npamatrix{(t(l4rls971,.70.81.1]).T 


myx =np.matrix([[7,3],[3,17], [11,5]],dtype=np.float64) 
x = np.matrix([[myx[0,0],myx[0,1],myx[0,0]**2,myx[0,1]**2,myx[0,0]*myx[0,1]],\ 
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[myx[1,0],myx[1,1],myx[1,0]**2,myx[1,1]**2,myx[1,0]*myx[1,1]],\ 
[myx [2,0] ,myx[2,1] ,myx[2,0] **2,myx[2,1]**2,myx[2,0]*myx[2,1]]],\ 
dtype=np.float64) 


Y =x*z 

wn=np.linalg .pinv (x.T*x) 
b=wn*x.T*y 

print u" 参 数 项 矩阵 为 {0}" .format (b) 
i=0 

cb=[] 


while i<5: 
cb.append (b[i,0]) 
i+=1 
temp e=y-x*b 
mye=temp e.sum()/temp e.size 
e=np.matrix([mye,mye,mye]).T 


print "y=%f*xl+%f*x2+%f* (xl1^2)+%f* (x2^2)+%f*xl*x2+%f"$% (cb[0] ,cb[1],cb[2],cbl[l3],c 
b[4],mye) 


程序 运行 后 ， 输 出 的 参数 矩阵 及 回归 方程 如 下 : 


参数 项 矩阵 为 [[ 1.59659657] 
[ 0.69002152] 
[ 2.01029166] 
[ 0.9820693 ] 
[ 0.4052783 ]] 
y=1.596597*x1+0.690022*x2+2.010292* (x1^2)+0.982069* (x2^2)+0.405278*xl1*x2+- 
0.000000 


7.7 PCA 降 维 


PCA 主要 用 于 数据 降 维 。 由 一 系列 特征 组 成 的 多 维 向 量 ， 其 中 某 些 元 素 本 身 没 有 区 分 
性 ， 比 如 某 个 元 素 在 所 有 的 样本 中 都 相等 ， 或 者 彼此 差距 不 大 ， 那 么 这 个 元 素 本 身 就 没有 区 
分 性 ， 如 果 用 它 做 特征 来 区 分 ,贡献 会 非常 小 。 我 们 的 目的 是 找到 那些 变化 大 的 元 素 ， 即 方 
差 大 的 维 ， 而 去 除 掉 那 些 变 化 不 大 的 维 。 

使 用 PCA 的 好 处 在 于 ， 可 以 对 新 求 出 的 “ 主 元 ”向 量 的 重要 性 进行 排序 。 根 据 需 要 取 
前 面 最 重要 的 部 分 ， 将 后 面 的 维 数 省 去 ， 从 而 达到 降 维 、 简 化 模型 或 对 数据 进行 压缩 的 效 
果 。 同 时 最 大 程度 地 保持 了 原 有 数据 的 信息 ， 较 低 的 维 数 意味 着 运算 量 的 减少 ， 在 数据 较 多 
的 情况 带 来 的 性 能 提高 更 明显 。 

PCA 通过 将 主 成 分 分 析 的 问题 转化 为 求解 协 方 差 矩 阵 的 特征 值 和 特征 向 量 来 计算 。 其 目 
标 是 寻找 r(r<n) 个 新 变量 ,使 它们 反映 事物 的 主要 特征 ， 压 缩 原 有 数据 和 矩阵 的 规模 ， 每 个 新 
变量 是 原 有 变量 的 线性 组 合 ， 体 现 原 有 变量 的 综合 效果 ， 这 -个 新 变量 称 为 “ 主 成 分 "， 它 们 
可 以 在 很 大 程度 上 反映 原来 n 个 变量 的 影响 ,并 且 这 些 新 变量 是 互 不 相关 的 ， 也 是 正 交 的 。 

以 将 数据 的 维 数 从 N 降 到 5 为 例 ，PCA 算法 过 程 如 下 : 

(1 ) 计算 样本 和 矩阵 协 方差 矩阵 。 
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(2 ) 计算 协 方差 矩阵 $ 的 特征 向 量 el,e2,…,eN 及 其 特征 值 i= 1,2,…,N。 

(3 ) 把 特征 值 按 从 大 到 小 排序 ， 取 前 5 位 特征 值 对 应 的 特征 向 量 组 成 投影 矩阵 丈 。 

(4 ) 投影 数据 到 球 组 成 的 空间 之 中 。 

上 述 算法 过 程 较 抽 象 ， 理 解 它 的 最 好 方式 就 是 动手 实现 它 。 下 面 编写 一 段 Python 程序 ， 
使 用 mlpy 库 提 供 的 PCA 类， 实现 PCA 算法。 


#!/usr/bin/env python 

# -*- coding: utf-8 -*- 

#code:myhaspl@qq.com 

#7-22 .py 

import numpy as np 

import matplotlib.pyplot as plt 

import mlpy 

np.random.seed (0) 

mean, COv R= [0 Os [TI tlreS5]], 100 

x = np.random.multivariate normal (mean, cov, n) 
pca = mlpy.PCA() 

pca.learn (x) 

coeff = pca.coeff () 

fig = plt.figure(1) 

plotl =m plt ploB(xl: 0ls xls: 4] "o") 

Plot2 = plt.plot ([0,coeff[0, 0]], [0, coeff[l1, 0]], linewidth=4, color='r') 
plot3 = plt.plot([0,coeff[0, 1]]}, [0, coeff[l1, 1]], linewidth=4, color='g') 
xx = plt.xlim(-4, 4) 

yy = plt.ylim(-4, 4) 

Z = pca.transform(x, k=1) 

xnew = pca.transform inv (z) 

fig2 = plt.figure (2) 

PlLotl = plt.plot (xnew[:, 0], xnew[:, 1], 'o') 
xx = plt.xlim(-4, 4) 

YY = plt.ylim(-4, 4) 

plt.show() 


如 图 7-35 所 示 是 程序 生成 的 两 张 散 点 图 ， 左 边 是 数据 降 维 前 的 效果 ， 右 边 是 数据 降 维 
后 的 效果 。 能 明显 看 出 数据 降 维 后 ， 数 据 的 整体 趋势 并 没有 改变 ， 最 大 程度 地 保持 了 原 有 数 
据 的 信息 。 








0 1 94 
图 7-35 数据 降 维 
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7.8 小结 


机 器 学 习 算法 是 机 器 学 习 的 灵魂 。 本 章 首 先 介绍 神经 网 络 ， 由 浅 人 深 地 讲述 了 基于 
Rosenblatt 感知 器 的 线性 神经 网 络 、 反 向 传播 算法 及 基于 多 层 感 知 器 的 非 线性 神经 网 络 ; 然 
后 介绍 了 平均 值 与 方差 、 贝 叶 斯 分 类 等 统计 算法 ; 接着 前 述 了 相似 度 算法 的 两 个 常用 方法 : 
欧 氏 距离 和 余弦 相似 度 ; 最 后 讲解 了 SVM、 回归 算法 、PCA 降 维 等 机 器 学 习 算 法 。 

在 讲述 算法 的 同时 ， 笔 者 理论 联系 实际 ， 用 Python 实现 了 本 章 涉及 的 大 部 分 机 器 学 习 
算法 。 此 外 ， 为 了 帮助 读者 更 好 地 理解 ， 在 解说 每 一 节 的 算法 之 前 ， 介 绍 了 算法 涉及 的 数学 
基础 知识 。 

每 个 机 器 学 习 算 法 不 一 定 适 合 所 有 的 机 器 学 习 任 务 ， 因 此 ， 应 在 实践 中 应 用 这 些 算法 ， 
观察 算法 的 实际 效果 ， 选 择 最 适合 的 算法 。 


思考 题 


(1) 编写 Python 代码 实现 一 个 Rosenblatt 感知 器 ， 随 机 产生 一 组 和 和 了 的 样本 值 ， 这 

些 样本 值 分 别 属于 以 下 两 类 函数 : 
5x-3=y 为 第 1 类 
2x+6=y 为 第 2 类 

然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 分 类 线 。 

(2 ) 编写 Python 代码 实现 多 层 感 知 器 ， 随 机 产生 一 组 和 和 了 的 样本 值 ， 用 随机 数据 对 
训练 后 的 网 络 进行 测试 绘制 散 点 图 和 误差 曲线 ， 计 算式 和 了 的 方差 和 平均 值 ， 分 析 其 分 布 
趋势 。 

(3 ) 编写 Python 代码 实现 多 层 感知 器 ， 绘 制 样本 散 点 图 和 误差 曲线 。 随 机 产生 一 组 天 
样本 值 ， 并 将 了 的 样本 值 函 数 定义 为 : 

Y=sin(x)*0.7 
(4) 编写 Python 代码 实现 SVM 算法 ， 随 机 产生 一 组 XX 和 了 的 样本 值 ， 这 些 样本 值 分 
别 属于 以 下 两 类 函数 : 
y=x^atb ”(a<=3,abs(b)<20) 为 第 一 类 
y=x^a+b (a>=5,abs(b)<10) 为 第 二 类 
然后 用 随机 生成 的 测试 数据 进行 分 类 ， 并 绘制 出 散 点 图 。 

(5 ) 选择 一 组 数据 ， 用 Python 实现 下 面 的 回归 方程 : 

y=b1l*x2+b2*x1 +b3*x1*x2 
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在 科学 和 工程 问题 上 可 通过 采样 、 实 验 等 方法 获得 若干 离散 的 数据 分析 这 些 数据 能 得 
到 一 个 连续 的 函数 ( 曲线 ) 或 者 更 加 密集 的 离散 方程 ， 且 这 个 方程 与 已 知 数据 相 吻合 ， 这 个 
过 程 叫 做 数据 拟 合 。 数 据 实 质 是 针对 一 组 未 知 规律 的 数据 建立 数学 方程 ， 通 过 数学 方法 建立 
一 个 函数 映射 方式 。 

前 面 几 章 涉及 了 很 多 回归 分 析 算 法 ， 都 是 先 根 据 样 本 建立 模型 ， 然 后 分 析 回归 效果 ， 最 
终 目 的 是 弄 清楚 两 个 或 两 个 以 上 变量 之 间 的 因果 关系 ， 因 此 ， 这 些 算法 都 是 对 数据 的 拟 合 。 


8.1 数据 拟 合 


分 析 一 个 自 变量 和 一 个 因 变 量 之 间 的 关系 ， 可 通过 图 像 分 析 法 与 神经 网 络 拟 合法 建立 数 
学 模型 进行 映射 。 


8.1.1 图 像 分 析 法 

顾名思义 ， 图 像 分 析 法 就 是 将 样本 数据 中 的 自 变量 了 和 因 变 量 了 的 值 映 射 为 平面 直角 
坐标 系 中 的 点 ， 其 无 轴 坐标 和 了 了 轴 坐 标的 值 分 别 为 自 变 量 和 因 变 量 的 值 ， 这 些 点 共同 形成 
一 个 散 点 图 。 通 过 分 析 散 点 图 中 这 些 点 的 几何 分 布 趋势 ， 对 照常 见 函数 图 像 ， 选 择 最 接近 
的 、 最 适合 的 数学 函数 作为 拟 合 方程 。 

既然 是 图 像 分 析 法 ， 那 么 就 需要 对 常见 的 数学 函数 及 其 图 像 有 一 个 直观 的 认识 。 因 此 ， 
这 里 先 介绍 常见 的 数学 函数 。 


1. 寡 函 数 

宕 函数 是 形 如 /ao=x* 的 函数 ， 函 数 以 底数 为 自 变量 ， 寡 为 因 变量 ， 指 数 a 为 常量 ，a 可 
以 是 自然 数 、 有 理 数 、 任 意 实 数 或 复数 。 下 面 是 几 个 经 典 的 寡 函 数 。 

(1 ) 指数 为 1、2、1/2 的 寡 函 数 ， 它 们 分 别 为 )xz、) 王 刀 、) 一 xz ， 图 像 如 图 8-1 所 示 。 

(2 ) 指数 为 3、1/3 的 短 函 数 ， 它 们 分 别 为 yx*、y=x”， 图 像 如 图 8-2 所 示 。 


wwaibbt.com DODOODD 


第 8 章 ”数据 拟 合 案 例 @ 229 





图 8-1 指数 为 1、2、1/2 的 短 函 数 图 像 图 8-2 指数 为 3、1/3 的 客 函 数 图 像 
(3 ) 指数 为 -1 的 军 函 数 ， 函 数 为 y=x'， 图 像 如 图 8-3 所 示 。 
2. 一 次 函数 


一 次 函数 又 称 线性 函数 ， 是 指 拥有 一 个 变量 的 一 阶 多 项 式 函 数 。 一 次 函数 可 以 表达 为 以 
下 和 斜 截 式 的 格式 : 
Nk 
其 中 , 是 斜率 ，b 是 截 距 。 
一 次 函数 在 二 维 坐 标 系 中 表现 为 一 条 直线 ， 以 自 变 量 为 X 轴 ， 以 因 变 量 为 Y 轴 。 如 : 
y=2x+1 和 y=-x+1 属于 一 次 函数 ， 它 们 的 图 像 如 图 8-4 所 示 。 








图 8-3 ”指数 为 -1 的 寡 函 数 图 像 图 8-4 一 次 函数 图 像 


3. 一 元 二 次 函数 

如 果 ) 王 orz+bx+tc (a、b、c 为 常数，a 不 为 0)， 则 称 y 为 x 的 一 元 二 次 函数 ， 其 中 ,a 
称 为 二 次 项 系数 ,4b 为 一 次 项 系数 ，c 为 常数 项 。 

一 元 二 次 函数 是 抛物 线 ， 是 轴 对 称 图 形 ， 它 的 对 称 轴 为 直线 x=- 忆 ， 它 的 顶点 坐标 为 


b 4ac-b’ 
[二 | 此 外 ， 一 元 二 次 函数 还 可 写成 交点 式 : y=a(x-x)Cx-xy)， 交 点 式 仅 限于 与 x 
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轴 有 交点 的 抛物 线 ， 与 x 轴 的 交点 坐标 是 (xi, 0) 和 (x,, 0)。 

如 图 8-5 所 示 为 一 元 二 次 函数 y=2x +x+1 和 y=-2x +x+2 的 图 像 。 从 图 像 上 观察 ， 一 元 二 
次 函数 是 一 个 开口 向 上 或 开口 向 下 的 抛物 线 ， 二 次 项 系数 决定 抛物 线 的 开口 方向 和 大 小 ， 
当 a>0 时 ， 抛 物 线 向 上 开口 ; 当 a<0 时 ， 抛物线 向 下 开口 。|ld| 越 大 ， 则 抛物 线 的 开口 越 小 。 


】 





图 8-5 二 次 函数 图 像 


4. 指数 函数 

指数 函数 天 e 是 数学 中 重要 的 函数 ， 这 里 的 e 是 数学 常数 ， 就 是 自然 对 数 的 底数 ， 近 
似 等 于 2.718281828。y=e’ 的 图 像 总 在 x 轴 之 上 并 从 左 向 右 递增 , 它 接近 x 轴 但 不 会 与 x 轴 
相交 。 

此 外 ， 还 可 定义 更 一 般 的 指数 函数 y=a*， 对 于 a>0 和 实数 x， 该 函数 可 称 为 底数 为 a 的 
指数 函数 。a” 可 如 下 变换 为 以 e 为 底 的 指数 函数 。 





a*= ( em) 一 erxlna 
=Gr 4 y=a 
(0<a>1) (他 二 
- 汉 2 a 1 2 A VO YY 
图 8-6 指数 函数 y=e” 图 8-7 指数 函数 y=a 


观察 图 8-7 所 示 的 指数 函数 y=a*， 当 a>1 时 ， 从 左 到 右 函 数 是 递增 的 ， 否 则 函数 是 递减 
的 。 指 数 函 数 遵 循 以 下 运算 规律 : 
a'"=1 
a'=a 
a =a@ 
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CD 一 (ab 
5. 对 数 函 数 
相对 于 底数 a 数 x 的 对 数 是 w 的 指数 y， 使 得 x=e， 相 对 于 底数 a 的 数 x 的 对 数 通常 记 
为 y=logx， 在 工程 计算 中 常用 e、10 和 2 来 做 底数 ， 如 表 8-1 所 示 。 


表 8-1 常用 对 数 函 数 表示 





观察 图 8-8 所 示 的 对 数 函 数 图 像 ， 可 看 出 : 当 a>1 时 ， 函 数 是 递增 的 ， 和 否则， 函数 是 弟 
减 的 。 自 然 对 数 的 底 e 大 于 1， 它 的 函数 图 像 是 递增 的 ， 如 图 8-9 所 示 。 


y4 
3 
2 j=lnx 
— 
y4 | 
3 
2 1 2 3 4 
log 一 1 
! (a>D) 
0 EE 
1 3 .4 记 2 
= 
J-log,x _3 
2 (0<a<1) 
—3 ; | 
一 4 
图 8-8 logx 图 8-9 自然 对 数 
6 三 角 函 数 y=sin x y=cos x 
三 角 函 数 中 使 用 得 最 多 的 是 正弦 


(如 图 8-10 所 示 )、 余 弦 (如 图 8-10 所 
示 )、 正 切 (如 图 8-11 所 示 )、 余 切 (如 
图 8-12 所 示 )。 





图 8-10 正弦 函数 与 余弦 函数 
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图 8-11 正切 函数 图 8-12 余 切 函数 


7. 多 项 式 函 数 ee 


多 项 式 的 函数 图 像 旺 现 连续 曲线 ， 以 多 项 式 ?= 村 + -本 -2 和 JP-x-2 为 例 ， 其 函 
数 图 像 如 图 8-13 和 图 8-14 所 示 。 


3 3 

图 8-13 ?= 玫 + -二 -了 一? 的 函数 图 像 图 8-14 y=x*-x-2 的 函数 图 像 

仔细 观察 前 面 列举 的 函数 图 像 ， 可 发 现 常 见 的 函数 分 为 两 种 : 线性 函数 与 非 线 性 函数 。 
其 中 ， 线 性 函数 是 变量 与 自 变量 成 一 次 方 的 函数 关系 ， 在 函数 图 上 呈现 一 条 直线 ; 而 非 线性 
函数 是 指 两 个 变量 间 的 关系 不 成 简单 比例 ， 函 数 图 像 呈 现 为 曲线 。 

线性 拟 合 是 以 一 条 直线 来 拟 合 自 变 量 与 因 变量 的 关系 ， 而 非 线性 拟 合用 连续 曲线 来 拟 合 
自 变量 与 因 变量 之 间 的 关系 。 下 面 以 几 个 具体 实例 说 明 图 像 分 析 法 在 线性 与 非 线 性 拟 合 中 的 
应 用 。 

(1 ) 多 项 式 是 非 线性 函数 ， 如 图 8-15 所 示 的 图 像 为 两 类 样本 数据 生成 的 散 点 图 ， 其 中 
虚线 和 实 线 各 代表 一 类 。 

从 图 8-15 看 , 了 X 轴 的 区 域 为 [0,5]， 两 条 曲线 代表 的 数据 都 比较 接近 多 项 式 函数 图 像 
y=x+b， 因 此 ， 可 选用 短 函 数 作为 数据 拟 合 的 模型 。 此 外 ， 从 图 像 可 判定 ， 虚 线 函 数 的 导数 
要 比 实 线 函 数 的 导数 增长 得 快 ， 虚 线 数据 表示 的 方程 参数 a 要 比 实 线 表示 的 方程 参数 a 大， 
原因 是 : 导数 即 切线 的 斜率 ， 导 数 越 大 ， 切 线 越 陡 ， 而 虚线 函数 的 切线 明显 要 比 实 线 函 数 陡 
很 多 ， 它 的 曲线 在 后 期 更 加 上 扬 。 事 实 上 ， 图 8-15 所 代表 的 两 类 数据 的 模型 分 别 为 : 虚线 
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是 y=x*+6， 实 线 是 y=x*+6。 











0 0.5 1 1.S 过 55 3 3 4 4.5 5 
图 8-15 ”多项式 非 线 性 拟 合 


(2 ) 大 学 生 身 高 与 体重 线性 拟 合 。 从 某 大 学 中 随机 选取 9 名 女 大 学 生 ， 其 身高 和 体重 数 
据 如 表 8-2 所 示 。 下 面 分 析 这 些 数据 并 建立 女 大 学 生 身高 与 体重 模型 ， 从 而 指导 女 大 学 生 通 
过 简易 的 公式 查询 自己 的 体重 是 否 标准 。 


表 8-2 ” 女 大 学 生 身 高 与 体重 数据 





首先 ， 使 用 RR 语言 输入 数据 (本 例 只 有 9 个 数据 ， 可 手工 录入 。 当 数据 量 很 大 时 ， 可 
使 用 第 6 章 介 绍 的 read.table 函数 读 取 数 据 )。 
>c (58,63,57,65,62,66,58,59,62)->y 


>c(160,165,158,172,159,176,160,162,171) 
一 >X 


接着 ， 用 自 变量 身高 (x ) 与 因 变 量 体 重 | 
(y) 组 成 9 个 数据 点 ， 绘 制 在 直角 坐标 系 中 ， 上 
生成 散 点 图 。 | 
观察 分 析 散 点 图 趋势 ， 图 8-16 表明 ， 随 着 | 
x 的 增长 ,y 也 增长 ， 数 据点 呈 一 条 直线 分 布 
(线性 拟 合 )。 
下 面 以 直线 模型 对 数据 进行 拟 合 ， 可 通过 | 
R 语言 进行 拟 合 分 析 。 


> lm(y~x) ->xy 


58 60 62 64 66 


> summary (xy) 
Call: 
lm(formula = y ~ x) 





图 8-16 女 大 学 生 身 高 体重 散 点 图 
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Residuals: 
Min 10 Median 3Q Max 
-1L.7317 -1.0989 -0.9412 0.8471 3.3223 


Coefficients: 

Estimate Std. Error t value Pr(>|t|) 
(Intercept) -8.28830 15.94636 -0.520 0.61926 
x QO%42117 0.09671 4.355 .0.00333 ** 


Sgnig. :COdess OO ‘wes’ O00 “x* AOL s” O05 .OT ™ 


Residual standard error: 1.808 on 7 degrees of freedom 
Multiple R-squared: 0.7304, Adjusted R-squared: 0.6919 
F-statistic: 18.97 on 1 and 7 DF, p-value: 0.003334 


通过 对 上 述 直 线 方程 模型 的 分 析 ， 可 初步 得 出 以 下 结论 : 

口 直线 方程 即 线性 方程 ， 可 写成 y=ax+b 的 方式 ，a 即 系数 ( Coefficients 项 中 的 x) 为 
0.42117,b 即 截 距 ( Coefficients 项 中 的 Intercept ) 为 -8.28830， 线 性 拟 合 模型 为 
y=0.42117x-8.28830。 

口 Coefficients 栏 的 x 行 尾 的 星 号 为 2 个 。 星 号 的 含义 表示 线性 关系 是 否 显 著 : * 的 数量 
是 0 一 3, * 的 数量 越 多 则 线性 关系 ; 
越 显 著 。 在 本 例 中 ， 自 变量 身高 与 
因 变量 体重 的 线性 关系 并 不 是 非常 
显著 ,否则 星 号 应 为 3 个 。 

下 面 绘制 回归 线 ， 图 8-17 所 示 。 观 察 

各 数据 点 在 回归 线 周围 的 分 布 情 况 ， 目 测 
拟 合 效果 。 


> plot (x,y) 
> abline( lm(y~x)) 


从 图 8-17 来 看， 数据 分 布 在 回归 线 周 
围 ， 但 某 些 数据 点 的 残 差 较 大 (比如 155 
到 160 身高 段 )。 总 体 来 说 ， 数 据 拟 合 效果 
较 好 ， 没 有 出 现 数据 点 分 布 趋势 严重 偏离 
回归 线 。 

通过 及 语言 的 residuals 函数 分 析 残 差 。 


> residuals (xy) ->xy_res 图 8-17 女 大 学 生 身高 体重 数据 的 回归 线 














> xy_res 
1 2 3 4 5 6 4 
-1.0988557 1.7952956 -1.2565162 0.8471074 3.3223140 0.1624285 -1.0988557 
8 9 


-0.9411952 -1.7317228 


残 差 计 算 的 方式 为 : 通过 上 一 步 计算 得 到 的 线性 模型 ， 将 9 个 女 大 学 生 的 自 变量 身高 带 
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入 线性 模型 中 的 x， 计 算出 观测 的 y 值 后 ， 计 算 实 际 值 与 预测 y 值 的 差额 ， 这 个 差额 就 是 残 
差 。 如 果 拟 合 模 型 正确 ,可 以 将 残 差 看 作 误 差 的 观测 值 ， 它 应 符合 模型 的 假设 条 件 ， 且 具有 
误差 的 一 些 性 质 。 

上 述 代 码 根据 线性 模型 计算 得 出 残 差 对 象 xy_res，9 个 元 素 分 别 为 9 个 女 大 学 生 样 本 数 
据 的 残 差 ， 其 中 残 差 最 大 的 数据 为 第 5 个 女 大 学 生 ， 即 3.3223140， 最 小 为 0.1624285， 是 
第 6 个 女 大 学 生 。 

然后 ， 计 算 残 差 平 方 和 。 残 差 平方 和 是 指 每 个 残 差 的 平方 后 的 累计 ， 它 表示 随机 误差 的 
效应 。 残 差 平 方 和 是 衡量 拟 合 优 度 的 重要 标准 ， 它 的 值 越 小 ， 说 明 拟 合 效 果 越 好 。 通 过 下 面 
代码 计算 ， 线 性 模型 拟 合 后 的 残 差 平方 和 为 22.88334。 


> sum(xy res*xy_ res) 
[1] 22..88334 


最 后 ， 分 析 残 差分 布 、 标 准 残 差 及 标准 残 差 图 。 
残 差 为 测定 值 与 按 回归 方程 预测 的 值 之 差 ， 可 用 5 表示 ， 如 果 数 据 拟 合 模型 效果 较 好 ， 
那么 残 差 5 应 遵从 正 态 分 布 NO0，o)， 通 过 绘制 QQ 图 观察 残 差 数据 是 否 符合 正 态 分 布 。 


> qqnorm(xy_res) 
> qqline(xy_res) 


观察 残 差分 布 QQ 图 ， 如 图 8-18 所 示 。 可 看 出 : 残 差 5 分 布 接近 正 态 分 布 ， 数 据点 基 
本 在 直线 附近 ， 回 归 效 果 较 理想 ， 但 仍 不 是 非常 理想 。 


Normal Q-Q Plot 


Sample Quantiles 








Theoretical Quantiles 


图 8-18 ”和 残 差分 布 QQ 图 


标准 残 差 就 是 〈 残 差 6- 残 差 的 均值 ) / 残 差 的 标准 差 ， 用 6* 表示 。 下 面 通过 及 语言 
rstandard 函数 计算 身高 体重 拟 合 模型 的 标准 残 差 ， 同 时 绘制 标准 残 差 图 ， 图 8-19 所 示 。 
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> rstandard (xy) ->Std_xy_res 
> std xy_res 


于 2 3 4 5 6 7 
-0.6696927 1.0532610 -0.7984996 0.5447647 2.0629420 0.1235619 -0.6696927 
8 9 


-0.5591209 -1.0857787 
> plot (x,std xy res) 
> abline (h=0) 


1 和 20 


10 


std_xy_res 
0.5 


00 





-1.0 -0.5 





160 165 170 175 





| 
X ! 
OGY OEE CE TesP REE ECD A 


图 8-19 身高 体重 标准 残 差 图 


标准 残 差 图 是 以 拟 合 模型 的 自 变量 为 横 坐 标 ， 以 标准 残 差 为 纵 坐 标 ， 将 每 一 个 自 变量 的 
标准 残 差 描述 在 该 平面 坐标 上 ， 形 成 图 形 ， 实 验 点 的 标准 残 差 落 在 残 差 图 的 (-2，2) 区 间 以 
外 的 概率 科 0.05， 若 某 一 实验 点 的 标准 化 残 差 落 在 (-2，2) 区 间 以 外 ， 可 在 95% 置信 度 将 其 
判 为 异常 实验 点 。 置 信 度 也 称 置信 水 平 ， 抽 样 不 可 能 抽取 
全 部 总 体 进行 分 析 ， 由 于 样本 的 随机 性 ， 通 过 这 些 样 本 对 
总 体 参 数 作出 估计 时 ， 结 论 总 是 不 确定 的 ， 因 此 引入 置信 
度 ， 用 概率 来 陈述 总 体 参 数值 落 在 样本 统计 值 某 一 区 内 的 
可 能 性 。 

当 描 绘 标准 残 差 的 点 围绕 标准 残 差 等 于 0 的 直线 上 下 完 
全 随机 地 分 布 ， 绝 大 多 数 点 落 在 (-2，+2 ) 的 水 平 带 状 区 
间 之 中 ， 且 不 带 有 任何 系统 趋势 时 ， 则 说 明 拟 合 模型 对 原 
观测 值 ( 即 样本 ) 的 拟 合 情 况 良好 ， 如 图 8-20 所 示 。 图 8-20” 拟 合 良 好 的 标准 残 差 图 
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如 果 拟 合 方程 原本 是 非 线性 模型 ( 曲线 )， 但 拟 合 时 却 采 用 了 线性 模型 《直线 )， 标 准 化 
残 差 图 就 会 表现 出 曲线 形状 ， 产 生 系统 性 偏差 ， 说 明 拟 合 模型 不 适合 ， 如 图 8-21、 图 8-22 
所 示 。 














图 8-21 出 现 系统 性 偏差 的 标准 残 差 图 中 图 8-22 ”出 现 系 统 性 偏差 的 标准 残 差 图 @ 


针对 当前 的 拟 合 模型 ， 样 本 数据 中 如 果 出 现 了 异常 点 ， 它 们 会 远离 大 多 数 数据 点 ， 如 图 
8-23 所 示 。 
此 外 ， 如 果 拟 合 不 充分 ， 很 多 点 会 落 在 (-2，+2 ) 的 水 平 带 状 区 间 之 外 ， 如 图 8-24 所 示 。 


6* 


] 投 














图 8-23 ”异常 点 图 8-24 ” 拟 合 不 充分 


根据 标准 残 差 图 的 相关 知识 ， 观 察 图 8-19 所 示 的 身高 体重 标准 残 差 图 ， 可 得 出 以 下 结论 : 

口 绝 大 部 分 数据 在 (-2，+2 ) 的 水 平 带 状 区 间 内 ， 因 此 模型 拟 合 较 充 分 。 

口 数据 点 分 布 稍 均匀 ， 但 没有 达到 随机 均匀 分 布 的 状态 。 此 外 ， 部 分 数据 点 还 是 呈现 
某 种 曲线 波动 形状 ， 有 少许 系统 性 偏差 ， 因 此 可 能 采用 非 线性 拟 合 效果 会 更 好 。 

口 大 学 生 身 高 与 体重 非 线性 拟 合 。 继 续 以 女 大 学 生 身高 与 体重 的 例子 为 例 ， 再 次 仔细 
观察 图 8-16 所 示 的 散 点 图 ， 数 据点 呈现 上 凸 的 递增 曲线 分 布 ， 可 对 身高 与 体重 的 关 
系 应 用 非 线性 模型 ， 也 许 效 果 会 比 直 线 好 ， 因 为 曲线 更 贴近 它 的 分 布 趋 势 。 那 么 选 
用 哪个 非 线性 数学 函数 比较 适合 呢 ? 观察 前 面 列举 的 常见 函数 图 像 ， 可 发 现 宕 函数 
比较 适合 ， 尤 其 是 y=x” 的 函数 图 像 ， 也 呈现 上 凸 且 递 增 趋势 ， 但 是 短 函 数 y=x’ 仅 
有 一 个 参数 a， 需要 进行 变形 ， 在 函数 尾部 加 上 截 距 bp», 使 函数 图 像 能 在 了 轴 整 体 
上 下 移动 ， 这 样 ， 就 拥有 了 两 个 可 调节 参数 ， 形 成 的 拟 合 方程 更 灵活 和 适用 。 
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细心 的 读者 肯定 发 现 了 ， 加 上 截 距 后 ， 寡 函数 y=x* 变 成 了 多 项 式 函 数 y=x"+b， 因 此 将 
非 线 性 拟 合 模型 假设 为 ) 一 *+2 的 多 项 式 方程 。 

首先 ， 显示 自 变量 和 因 变 量 数据 。 

a 160 165 158 172 159 176 160 162 171 


> Y 
[41] 58 63 57 .65 62 66 58 59 62 


接着 ， 通 过 nls 函数 建立 非 线性 拟 合 模型 ， 并 通过 summary 函数 分 析 该 模型 。 


> nls(yY ~ Const + X^A) ->nlmod 
> Summary (nlmod) 


Formula: Y ~ Const + x^A 


Parameters: 

Estimate Std. Error t value Pr(>|t|) 
Const -19.66594 15.09467 =1.303 0.234 
A 0.86036 0.03657 23.523 6.37e-08 **w 


Signif., codes: 0 ***’ QJO0L “sy O01 HW Oa05 < Oil ” 司 


Residual standard error: 1.808 on 7 degrees of freedom 


Number of iterations to convergence; 4 
Achieved convergence tolerance: 5.78e-06 


然后 ， 计 算 残 差 ， 分 析 残 差 平方 和 。 


> residuals (nlmod) ->nlxy_res 

> nlxy_res 

[1] -1.0986204 1.7882691 -1.2508068 0.8448399 3.3251002 0.1704208 -1.0986204 
-0.9449555 -1.7357098 

attr(s "labeln) 

[1] "Residuals" 

> sum(nlxy_ res*nlxy res) 

[1] 22..88108 


上 述 代码 计算 得 出 的 残 差 平方 和 为 22.88108， 比 刚才 应 用 线性 拟 合 的 残 差 平方 和 
22.88334 稍 小 些 ， 可 见 非 线性 模型 更 适合 拟 合 本 例 中 的 身高 体重 数据 。 

下 面 ， 绘 制 残 差 的 QQ 图 ， 如 图 8-25 所 示 。 从 QQ 图 中 ， 可 看 出 : 残 差 6 分 布 接近 正 
态 分 布 ， 数 据点 基本 在 直线 附近 。 


> qqnorm(nlxy_ res) 
> qqline (nlxy_ res) 


接着 ， 计 算 标 准 残 差 ， 将 计算 结果 存 人 std_nlxy_res。 


> (nl1xy_res-mean (nLxXY_res) )/sd(nlxy_res)->std_n1Lxy_res 

> std nlxy_res 
[1] -0.6496072 1.0574063 -0.7395947 0.4995580 1.9661322 0.1007751 
[7] -0.6496072 -0.5587453 -1.0263171 
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Normal Q-Q Plot 


Sample Quantiles 





图 8-25 ” 残 差 的 QQ 图 


attr(,"label") 
[1] "Residuals" 


绘制 标准 残 差 图 ， 如 图 8-26 所 示 。 


> plot (x,std nlxy res) 
> abline (h=0) 


通过 绘制 图 8-26 所 示 的 标准 残 差 图 ， 应 用 summary 函数 对 非 线性 模型 进行 分 析 ， 以 及 
计算 残 差 平方 和 与 标准 残 差 ， 可 得 出 以 下 结论 : 

口 图 8-26 中 没有 任何 异常 点 ， 计 算 的 标准 残 差 全 在 〈-2，+2 ) 的 水 平 带 状 区 间 内 ， 模 

型 拟 合 充分 。 

口 图 8-26 中 数据 点 分 布 较 均 匀 ， 拟 合 效果 良好 。 

口 残 差 平 方 和 比 线性 模型 小 ， 非 线性 模型 更 适 于 描述 女 大 学 生 身 高 与 体重 的 关系 。 

口 非 线性 拟 合 模型 为 y=x** -19.66594。 

最 后 ， 观 察 一 下 拟 合 预测 数据 以 及 拟 合 效果 图 ， 如 图 8-27 所 示 。 


> predict (nlmod) 

[1] 59.09862 61.21173 58.25081 64.15516 58.67490 65.82958 59.09862 59.94496 
[9 €3.73571 

> plot (x,y) 

> lines(x, predict (nlmod), col = 2) 
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stdnxyres 








图 8-26 身高 体重 非 线 性 模型 标准 残 差 图 








160 165 170 175 
x 


图 8-27 拟 合 效果 图 


不 要 把 图 8-27 中 的 拟 合 线 误 看 成 直线 ， 通 过 分 析 predict(nlmod) 的 执行 结果 及 得 到 的 非 
线性 拟 合 方程 可 看 出 ， 拟 合 预测 点 的 位 置 在 一 条 曲线 上 ， 但 位 置 相差 不 大 。 

仔细 观察 图 8-27 ( 非 线性 拟 合 ) 与 图 8-17 (线性 拟 合 ) 的 拟 合 线 ， 可 以 看 出 ， 图 8-27 
所 示 的 确实 是 一 条 曲线 。 


8.1.2 ”神经 网 络 拟 合 
数据 分 布 如 果 近 似 一 条 直线 ， 可 以 使 用 线性 神经 网 络 来 完成 数据 拟 合 ， 比 如 上 一 章 介绍 
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的 Rosenblatt 感知 器 ; 如 果 旦 有 曲线， 可 使 用 多 层 感 知 器 的 神经 网 络 进行 拟 合 。 上 一 节 讲 述 了 
通过 观察 数据 分 布 图 像 ， 估 计 非 线性 回归 对 应 的 数学 方程 。 本 节 将 要 介绍 的 神经 网 络 方法 与 
之 不 同 ， 它 具有 学 习 未 知 数据 规律 的 能 力 。 

通过 样本 对 神经 网 络 进 行 训练 的 过 程 就 是 在 输入 与 输出 数据 之 间 建 立 映射 的 过 程 。 训 练 
完成 后 ， 神 经 网 络 就 已 定型 ,网络 内 部 的 权 值 矩阵 和 神经 元 的 激活 函数 共同 组 成 了 映射 组 
件 ， 这 些 组 件 代 替 了 数学 方程 。 


1. 常见 数学 函数 拟 合 

理论 上 来 说 ， 有 了 神经 元 作为 映射 组 件 ， 神 经 网 络 可 以 对 数据 之 间 的 任何 规律 进行 学 习 
和 模仿 。 下 面 是 神经 网 络 对 上 一 节 介 绍 的 几 个 数学 函数 进行 拟 合 的 效果 。 

(1) sin 函数 拟 合 。 顾 名 思 义 ，sin 函数 拟 合 就 是 使 用 一 组 数据 x 作为 输入 ， 通 过 神经 网 
络 建立 模型 ， 其 输出 值 为 sin(x)。 可 通过 使 用 Python 编写 神经 网 络 ， 实 现 sin 函数 拟 合 。 

在 华章 网 站 下 载 本 书 的 资源 包 ， 打 开 里 面 的 文档 “多 层 感知 器 神经 网 络 源 代码 .doc”。 
下 面 将 在 该 文档 中 源 代 码 的 基础 上 进行 修改 ， 实 现 非 线性 拟 合 。 

首先 ， 随 机 生成 500 个 x 值 ， 同 时 计算 这 些 样本 对 应 的 目标 值 。 代 码 如 下 : 


#!/usr/bin/env Python 

#=-*= codings: utf=8, 一 = 一 
#code:myhaspl@qq.com 

#8-1 .py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 


isdebug=False 

#x 和 ad 样本 初始 化 

train x =[] 

d=[] 

for yb i in xrange(0,500): 

train x.append([np.random.rand()*4*np.pi-2*np.pil]) 
for yb i in xrange(0,500): 

d.append (np.sin(train x[yb i])) 


然后 设置 相关 参数 。 代 码 如 下 : 


warray txn=len(train x[0]) 
warray_n=warray txn*4*2 


# 基 本 参数 初始 化 
oldmse=10**100 
err=[] 
maxtrycount=800 


mycount=0.0 
if maxtrycount>=20: 
r=maxtrycount/10 
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else: 

r=maxtrycount/2 

#sigmoid 函 数 

ann_ sigfun=None 

ann delta_ sigfun=None 

# 总 层 数 初始 化 

alllevel count=int (warray txn*4*] .5+1) 


# 非 线性 层 数 初始 化 


hidelevel count=alllevel count-l 


# 学 习 率 参数 

learn r0=0.002 

learn, r=learn r0 *1.5 
# 动 量 参数 

train a0=learn r0*1.2 
train a0*=0.001 

train a=train a0 
expect e=0.02 


接着 ， 对 数据 进行 预 处 理 ， 并 生成 初始 权 值 矩 阵 。 
# 对 输入 数据 进行 预 处 理 


ann_ max=[] 
for m ani in xrange (0,warray txn): 

temp x=np.array (train x) 

ann max.append(np.max (temp x[:,m ani])) 
ann max=np.array (ann_max) 


def getnowsx (mysx,in w): 
' 7 "生成 本 次 的 扩 维 输入 数据 ''' 
global warIay_n 
mysx=np.array (mysx) 
x _ end=[] 
for i in xrange (0,warray n): 
x_end.append (np.dot (mysx,in w[:,i])) 
return x_end 


def get inlw(my train max,w count,myin x): 

'"'! 计 算 对 输入 数据 预 处 理 的 权 值 ''' 

# 对 随机 生成 的 多 个 权 值 进行 优化 选择 ， 选 择 最 优 的 权 值 

global warray txn 

global warray _n 

mylw=[] 

y_in=[] 

# 生 成 测试 权 值 

mylw=np.random.rand(w_count,warray txn,warray_n) 

for ii in xrange (0,warray txn): 
mylw[:,ii,:]=mylw[l:,ii,:]*1l/float (my train max[ii])-1l/float(my_ 
train max[ii])*0.5 


# 计 算 输出 
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for i in xrange (0,w_ count): 
y_in.append([]) 
for xj in xrange(0,1len (myin x)): 
y_in[i].append (getnowszx (myin x[xj],mylw[i])) 
# 计 算 均 方差 
mymin=10**5 
mychoice=0 
for i in xrange (0,w_ count): 
myvar=np.var(y_in[il]) 
if abs (myvar-1)<mymin: 
mymin=abs (myvar-1) 
mychoice=i 
# 返 回 数据 整理 的 权 值 矩 阵 


return mylw[mychoice] 
mylnww=get inlw(ann max,300,train x) 


def get inputx (mytrain x,myin w): 
'! 7 将 训练 数据 通过 输入 权 数 ， 扩 维 后 形成 输入 数据 '' 
end trainx=[] 
for i in xrange (0,1Len (mytrain x)): 
end trainx.append (getnowsx (mytrain x[i],myin w) ) 
return end trainx 


x=get inputx (train x,mylnww) 


def get siminx(sim x): 
global mylnww 
myxx=np.array (sim x) 
return get inputx (myxx,mylnww) 


def getlevelw (myin x,wo nwi n,w_ count): 
! 7 "计算 一 层 的 初始 化 权 值 矩阵 "7 
mylw=[] 
Y_in=[] 
# 生 成 测试 权 值 
mylw=np.random.rand(w_count,wi n,wo_n) 
mylw=mylw*2.—-1 


# 计 算 输 出 
for i in xrange(0,w_ count): 
y_in.append([]) 
for xj in xrange(0,1en (myin x)): 
x_end=[] 
for myii in xrange (0,wo _n): 
x_end.append (np.dot (myin x[xj],mylw[i,:,myii])) 
y_in[i] .append (x_end) 
# 计 算 均 方差 
mymin=10**3 
mychoice=0 
for i in xrange (0,w_count) : 
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myvVar=np.var(y_ in[il]) 
if abs (myvar-1)<mymin: 
mymin=abs (myvar-1) 
mychoice=i 
# 返 回 数据 整理 的 权 值 矩 阵 
csmylw=mylw[mychoice] 
return csmylw,y_in[mychoice] 


ann w=[] 
def init_annw() : 
global x 
global hidelevel count 
global warray _n 
global d 
global ann w 
ann_w=[] 


lwyii=np.array (x) 
for myn in xrange(0,hidelevel count): 
# 层 数 
ann _w.append([]) 
if myn==hidelevel count-l1: 
for iii in xrange (0,warray _n): 
ann wl[myn] .append ([]) 
for jjj in xrange(0,warray n): 
ann w[myn] [iii] .append(0.0) 
elif myn==hidelevel count-2: 
templw, lwyii=getlevelw (lwyii,1len(d[0]),warray n,10) 
for xii in xrange(0,warray n): 
ann wl[myn] .append([]) 
for xjj in xrange (0,len(d[0])): 
ann wl[myn] [xii] .append (templw[xii,xjj]) 
for xjj in xrange (len(d[0]),warray n): 
ann wl[myn] [xii] .append(0.0) 
else: 
templw, lwyii=getlevelw (lwyii,warray n,warray _n,10) 
for xii in xrange (0,warray n): 
ann w[myn] .append([]) 
for xjj in xrange (0,warray_n): 
ann wl[myn] [xii] .append (templw[xii,xjj]) 
ann w=np.array (ann_w) 


def generate lwl(trycount): 
global ann w 
print u" 产 生 权 值 初始 矩阵 "， 
meanmin=1 
myann_ w=ann w 
alltry=30 
tryc=0 
while tryc<alltry: 
for i i in range (trYycount) : 
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Drint, Ms™ 
init annw() 
if abs (np.mean (np.array (ann_w)))<meanmin: 
meanmin=abs (np.mean (np.array (ann w) )) 
myann w=ann W 
tryc+=1 
if abs (np.mean (np.array (myann_w) ) )<0.01:break 


ann w=myann_w 

print 

print un 权 值 矩 阵 平均 :$f"s (np.mean (np.array (ann_w))) 
print un" 权 值 矩 阵 方 差 :sf"g (np.var (np.array(ann_w) ) ) 


generate lw(15) 


下 面 ， 对 所 有 样本 数据 进行 反复 训练 ， 直 到 误差 降 到 期 望 值 为 止 。 单 个 样本 的 训练 过 程 
如 下 : 


def sample train(myx,myd,n,sigmoid func,delta sigfun): 


'，' 一 个 样本 的 前 向 和 后 向 计算 ''， 


global ann yi 

global ann delta 
global ann w 

global ann wj0 

global ann y0 

global hidelevel count 
global alllevel count 
global learn r 

global train a 

global ann oldw 


level=hidelevel count 
# 清 空 yi 输出 信号 数组 
hidelevel=hidelevel count 
alllevel=alllevel count 
for i in xrange(0,alllevel): 
# 第 一 维 是 层 数 ， 从 0 开始 
for j in xrange (0,n): 
# 第 二 维 是 神经 元 
ann yi[i][j]=0.0 
ann yi=np.array (ann_yi) 
yi=ann_ yi 


# 清 空 delta 算 阵 
for i in xrange (0,hidelevel-1): 
for j in xrange (0,n): 
ann deltal[i] [j]=0.0 


delta=ann delta 
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# 保 留 W 的 拷贝 ， 以 便 下 一 次 迭代 
ann_oldw=copy.deepcopy (ann _w) 
oldw=ann oldw 

# 前 向 计算 

if isdebug:print u" 前 向 计算 中 ..." 
# 对 输入 变量 进行 预 处 理 


myo=np.array([]) 
for nowlevel in xrange(0,alllevel): 
# 一 层 层 向 前 计算 
# 计 算 诱导 局 部 域 
my_y=[] 
myy=yi [nowlevel-1] 
myw=ann_w[nowlevel-1] 
if nowlevel==0: 
# 第 一 层 隐藏 层 
my_y=myx 
yi[nowlevel]=my_y 
elif nowlevel==(alllevel-1): 
# 输 出 层 
my_Yy=o_func (yi[nowlevel-1, :len (myd) ] ) 
yi[nowlevel, :len (myd) ]=my_Y 
elif nowlevel== (hidelevel-1): 
# 最 后 一 层 输 出 层 
for i in xrange(0,1en (myd) ) : 
temp_ y=sigmoid func (npP.dot (myw[:,i],myy)) 
my_y.append (temp_y) 
Yi [nowlevel, :Len (myd) ] =my_Y 


else: 
# 中 间 隐 藏 层 
for i in xrange(0,1en (myy)): 
temp_ y=sigmoid func(np.dot (myw[:,i],myy)) 
my_y.append (temp_y) 
yi[nowlevel]=my_y 
if isdebug: 
print Unxx*xxxx 本 样本 训练 的 输出 矩阵 关 *** 雪 六 六 六 大" 
print yi 


print 让 次 淡 次 交 六 交大 灾 交 六 六 六 次 次 次 央 关 实 闫 交 次 次 次 六 炊 奖 碳 六 次 交大 六 类 加 


# 计 算 误差 与 均 方 误差 

# 因 为 线性 输出 层 为 直接 复制 ， 所 以 取 非 线性 隐藏 输出 层 的 结果 
myo=yi [hidelevel-1] [:len (myd)] 

myo_end=yi [alllevel-1] [:len (myd)] 

mymse=get_e (myd,myo_end) 


# 反 向 计算 
# 输 入 层 不 需要 计算 delta, 输出 层 不 需要 计算 W 
if isdebug:print u" 反 向 计算 中 ..." 
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# 计 算 delta 
for nowlevel in xrange (level-1,0,-1): 
if nowlevel==level-1: 
mydelta=delta [nowlevel] 
my_n=len (myd) 
else: 
mydelta=delta[nowlevel+1] 
my_n=n 
myw=ann_w[nowlevell] 
if nowlevel==level-1: 
# 输 出 层 
mydelta=delta_ sigfun (myo,myd, None, None, None, None, None) 
## mydelta=mymse*myo 
elif nowlevel==level-2: 
# 输 出 隐藏 层 的 前 一 层 ， 因 为 输出 结果 和 前 一 层 隐 藏 层 的 神经 元 数目 可 能 存在 
不 一 致 的 情况 ， 所 以 单独 处 理 ， 传 输 相当 于 输出 隐藏 层 的 神经 元 数目 的 数据 
mydelta=delta sigfun(yi[nowlevel],myd,nowlevel,level- 
l,my_n,mydeltal[l:len(myd)] ,myw[:,:len (myd)]) 
else:; 
mydelta=delta sigfun(yi[nowlevel],myd,nowlevel,level- 
l,my_n,mydelta,myw) 


delta[lnowlevel][:my _n]=mydelta 
# 计 算 与 更 新 权 值 W 
for nowlevel in xrange (level-1,0,-1): 
# 每 个 层 的 权 值 不 一 样 
if nowlevel==level-l1: 
# 输 出 层 
my_n=1len (myd) 
mylearn r=learn r*0.8 
mytrain a=train a*1.8 
elif nowlevel==1: 
# 输 入 层 
my_n=len (myd) 
mylearn r=learn r*0.9 
mytrain a=train a*0.8 
else: 
# 其 他 层 
my_n=n 
mylearn r=learn r 
mytrain a=train a 


pre level myy=yi [nowlevel-1] 
pretrain myww=oldw [nowlevel-1] 
pretrain myw=pretrain myww[:,:my_n] 
# 第 二 个 调整 参数 


temp i=[] 
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for i in xrange (0,n): 
temp i.append([]) 
for jj in xrange (0,my n): 
temp_i[i].append (mylearn r*deltalnowlevel,jj]*pre_ 
level myy[i]) 
temp_ rs2=np.array (temp_ i) 
temp rsl=mytrain a*pretrain myw 
# 总 调整 参数 
temp_ change=temp rsl+temp rs2 
my_ww=ann wl[lnowlevel-1] 
my ww[:,:my _n]+=temp change 
if isdebug: 
print "=============" 
print u"*** 权 值 人 矩阵 ***" 
print ann w 
Print u"**x* 梯 度 人 矩阵 ***" 
print delta 
print "=============" 
return mymse 


经 过 43 次 训练 ， 误 差 率 降 到 了 0.02 以 下 ， 训 练 过 程 停 止 ， 如 下 所 示 : 


-一 一- 一 开始 第 41 次 训练 --------- 误差 为 : 0.026790 


------- 开始 第 42 次 训练 --------- 误差 为 : 0.021292 
------- 开始 第 43 次 训练 --------- 误差 为 : 0.019350 


训练 成 功 ， 正 在 进行 检验 
最 后 ， 进 行 仿真 测试 。 下 面 是 一 个 样本 值 的 仿真 计算 过 程 。 


def simulate (myx, sigmoid func,delta sigfun): 
''! 一 个 样本 的 仿真 计算 ''' 
print u" 仿 真 计算 中 " 
global ann yi 
global ann w 
global ann wj0 
global ann y0 
global hidelevel count 
global alllevel count 
global d 
global mylnww 


myd=d[0] 
myx=np.array (myx) 
n=len (myx) 


# 清 空 yi 输出 信号 数组 
hidelevel=hidelevel count 
alllevel=alllevel count 

for i in xrange (0,alllevel): 


# 第 一 维 是 层 数 ， 从 0 开始 
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for j in xrange (0,n): 
# 第 二 维 是 神经 元 
ann yi[i] [ij]=0.0 
ann yi=np.array (ann Yi) 
yi=ann yi 


# 前 向 计算 
myy=np.array ([]) 
for nowlevel in xrange(0,alllevel): 
# 一 层 层 向 前 计算 
# 计 算 诱导 局 部 域 
my_y=[] 
myy=yi [nowlevel-1] 
myw=ann wl[lnowlevel-1] 


if nowlevel==0: 
# 第 一 层 隐藏 层 
my_y=myx 


yi[nowlevel]=my_y 

elif nowlevel==(alllevel-1): 
# 线 性 输出 层 
my_y=o_func(yi[lnowlevel-1, :len (myd)]) 
yi[nowlevel, :len (myd) ] =my_Y 

elif nowlevel== (hidelevel-1): 
# 最 后 一 层 隐藏 输出 层 


for i in xrange (0, Len(myd) ) : 
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temp y=sigmoid func(np.dot (myw[:,i],myy)) 


my_y.append (temp_y) 


yi[nowlevel, :len (myd) ]=my_y 


else: 
# 中 间 隐 藏 层 
# 中 间 隐 藏 层 需 要 加 上 偏 置 
for i in xrange(0,1en (myy)): 
temp_ y=sigmoid func(np.dot (myw[:,i],myy)) 
my_y.append (temp y) 
yi[lnowlevel]=my_y 
if isdebug: 
print "=============" 
print u"*** 权 值 矩 阵 ***" 
print ann w 
print unxxy 输 出 矩阵 xxww 
pt， 于 
print "=============" 


return yil[lalllevel-1,:len(myd)] 


为 了 验证 效果 ， 绘 制 数据 拟 合 效果 和 误差 曲线 ， 如 图 8-28 所 示 。 图 8-28 的 上 部 是 拟 合 


效果 图 ， 目 标 值 和 预测 值 很 接近 ， 下 部 是 误差 曲线 ， 下 降 平滑 。 


(2) 0.6sin(x) 函数 神经 网 络 拟 合 。 下 面 尝试 实现 稍 复 杂 数 学 函数 的 拟 合 ， 比 如 
) 王 0.6sin(z)。 这 里 的 Python 实现 代码 与 前 面相 同 ， 因 此 ， 只 是 在 样本 数据 初始 化 代码 段 进行 
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了 修改 。 示 例如 下 : 


http://blog.csdn.net/myhaspl 








5 10 15 20 25 30 35 40 
traincount 


图 8-28 sin 函数 神经 网 络 拟 合 


#!/usr/bin/env Python 

= coding: Utf-8 一 * 一 
#code:myhaspl@qq.com 

#8-2.py 

import numpy as np 

import matplotlib.pyplot as plt 
import random 

import copy 


isdebug=False 


#x 和 d 样 本 初始 化 
train x =[] 
d=[] 


for yb i in xrange(0,500): 

train x.append([np.random.rand()*4*np.pi-2*np.pi]) 
for yb i in xrange(0,500): 

d.append (np.sin(train x[yb i])*0.6) 


经 过 71 次 训练 ， 神 经 网 络 的 收敛 目标 达到 ， 也 就 是 说 误差 率 达 到 了 期 望 值 。 


------- 开始 第 69 次 训练 --------- 误差 为 : 0.020464 
-一 -一 开始 第 70 次 训练 --------- 误差 为 : 0.020673 
a 开始 第 71 次 训练 --------- 误差 为 : 0.019350 


训练 成 功 ， 正 在 进行 检验 
图 8-29 为 程序 绘制 的 拟 合 效果 和 误差 曲线 图 。 


(3 ) 0.5sin(x)+0.5cos(x) 函数 拟 合 。 前 两 个 例子 使 用 了 本 书 资源 包 所 示 的 Python 代码 。 
下 面 使 用 Neurolab 库 实现 对 0.5sin(x)+0.5cos(x) 的 拟 合 。 代 码 如 下 : 
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http://blog.csdn.net/myhaspl 


x*O 


traincount 


图 8-29 ”0.6sin(x) 函数 神经 网 络 拟 合 ( 附 彩 图 ) 


#!/usr/bin/env python 

4=*= codings utr=8 =*= 

#8-3.py 

# 拟 合 sinx*0.5+cosx*0.5 

import neurolab as nl 

import numpy as np 

import matplotlib.pyplot as plt 
isdebug=False 


#x 和 d 样 本 初始 化 
train x =[] 
ea=1] 


samplescount=1000 


myrndsmp=np.random.rand (samplescount) 


for yb i in 
train x. 
ror 二 3 


xrange (0, samplescount): 


append([myrndsmp[yb i]*4*np.pi-2*np.pi]) 


xrange (0, samplescount): 


d.append (np.sin(train x[yb i])*0.5+np.cos(train x[yb i])*0.5) 


myinput=np.array (train x) 
mytarget=np.array (d) 


bpnet 
err 


nl.net.newff([[-2*np.pi, 2*np.pi]], [5, 


bpnet .train (myinput, mytarget, epochs=800, 


simd=[] 
for xn in xrange(0,len(train x)): 


Ll) 
show=100, goal=0.02) 


simd.append (bpnet.sim([train x[xn]])[0] [0]) 


temp x=[] 
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temp_ y=simd 
temp_d=[] 
i=0 
for mysamp in train x: 
temp x.append (mysamp[0]) 
temp_d.append (d[i] [0]) 
i+=1 
x_ max=max (temp x) 
x min=min (temp x) 
y_max=max (max (temp_y),max(d))+0.2 
y_min=min (min (temp_y),min(d))-0.2 


plt.xlabel (u"x") 

Plt.xlim(x min, x max) 

plt.ylabel (u"y") 05 
plt.ylim(y min, y_max) 


lp_x1 = temp x > 0.0 
lp x2 = temp y 


lp_d = temp. a 

Plt .plot (lp, xl1, lp, x2, "r*') 一 0.5 
plt.plot (lp _ x1,1lp d,'bo') 

plt.show() 


800 次 训练 后 ， 拟 合 效 果 较 好 ， 如 图 8-30 
撤 芝 。 图 8-30 ”0.5sin(x)+0.5cos(x) 的 拟 合 


2. 钢 包 使 用 次 数 与 容积 模型 拟 合 
表 8-3 是 钢 包 使 用 次 数 与 容积 实测 数据 ， 以 x 为 输入 ，? 为 输出 ， 在 输入 与 输出 数据 之 
间 可 建立 非 线 性 关系 。 这 里 用 神经 网 络 建立 数据 拟 合 模型 。 


表 8-3 ” 钢 包 使 用 次 数 与 容积 实测 数据 


一 0 一 4 -2 0 之 4 6 
X 


使 用 次 数 x 容积 》 
2 106.42 
3 108.2 
4 109.58 
5 109.5 
| 110 
8 109.93 
10 110.49 
11 110.59 
14 110.6 
15 110.9 
16 110.7 
18 111 
19 111.2 
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下 面 尝 试 应 用 神经 网 络 完成 以 上 数据 拟 合 任 务 ， 这 里 调用 Neurolab 库 ， 用 了 Python 实现 。 
首先 读 取 数据 文件 。 代 码 如 下 : 


#!/usr/bin/env python 
#-*- Coding;: utf-8 —*— 
#code:myhaspl@qq.com 
#8-4.py 

import numpy as np 
import pylab as pl 
import neurolab as nl 


print u' 正 在 处 理 中 ' 


#x 和 Gd 样本 初始 化 
train x =[] 
d=[] 
f = open("cubage.csv") 
bes 
£f text = £f,read( ) 
finally: 
f.closel( ) 
x text=f text.split('\n') 
for line i in xrange(0,len(x text)): 
line=x text[line il] 
if Jine: 4>1 and len(line) >0: 
train x.append([]) 
hdata=line.split(',') 
train x[line i-2] .append (float (hdata[0])) 
d.append([float (hdata[1])]) 


接着 ， 生 成 样本 数据 ， 一 般 情况 下 ， 使 用 tanh 的 神经 网 络 输出 值 不 会 超过 1， 因 此 ， 设 
置 调整 系数 ， 把 输出 值 处 理 成 1 以 内 的 小 数 。 代 码 如 下 : 


myinput=np.array (train x) 
mytarget=np .array(d) 
mymax=np .max (d) 
tz=(0.1**(len(str(int (mymax)))))*5 
myinput=myinput 
mytarget=tz*mytarget 


最 后 进行 训练 ， 训 练 时 可 加 入 未 知 样本 进行 测试 。 


# 对 未 知 样本 进行 测试 
myinputtest=[[6], [9], [17], [20]] 
testsimd= bpnet .sim(myinputtest) 
end x=np.array (myinputtest) 
testsimd/=tz 

end y=testsimd 


经 过 9 次 训练 ， 达 到 了 训练 目标 ， 误 差 为 1.9713682268777952e-05。 对 神经 网 络 输出 值 
应 用 调整 系数 ,将 其 输出 值 恢复 到 原 有 的 数值 范围 。 
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程序 生成 了 拟 合 效 果 图 ( 如 图 8-31 上 部 所 示 ) 及 误差 曲线 图 (如 图 8-31 下 部 所 示 )。 
同时 使 用 在 样本 空间 中 没有 出 现 的 部 分 测试 数据 6、9、17、20 作为 神经 网 络 的 输入 ， 验 证 
神经 网 络 的 训练 效果 和 拟 合 效果 。 图 中 实心 圆圈 为 未 知 测试 数据 ， 即 : 使 用 次 数 为 6、9、 
17、20 时 容积 的 预测 值 ， 星 号 为 样本 数据 。 


0.7 


E 
oo 
~ 


error (default SSE) 








图 8-31 钢 包 使 用 次 数 与 容积 的 神经 网 络 拟 合 


从 图 8-31 的 拟 合 效果 来 看 ， 样 本 数据 非常 接近 神经 网 络 拟 合 的 曲线 ,说 明 曲 线 较 好 地 
反映 了 随 着 使 用 次 数 的 增加 ， 容 积 的 增长 趋势 。 此 外 ， 对 在 样本 中 没 出 现 的 钢 包 使 用 次 数 
6、9、17、20, 与 之 相关 的 容积 预测 效果 不 错 。 

完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#=*= coding: utf=8. =#*= 
#code:myhaspl@qq.com 
#8-4.py 
import numpy as np 
import pylab as pl 
import neurolab as nl 
print u' 正 在 处 理 中 ' 
#x 和 a 样本 初始 化 
train x =[] 
d=[] 
f = open("cubage.csv") 
try: 
f text = f.read( ) 
finally: 
f.close( ) 
x text=f text.split('\n') 
for line i in xrange(0,len(x text)): 
line=x text[line i] 
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if line i>l1 and len(line)>0: 

train x.append([]) 

hdata=line.split(',') 

train x[line i-2] .append (float (hdata[0])) 

d.append([float (hdata[1])]) 
myinput=np.array (train x) 
mytarget=np.array (d) 
mymax=np .max (d) 
tz=(0.1**(lenl(str(int (mymax)))))*5 
myinput=myinput 
mytarget=tz*mytarget 
netminmax=[0,np.max (myinput)] 
print u'\n 正 在 建立 神经 网 络 ' 


bpnet = nl.net.newff([netminmax], [5, 1]) 


print u'\n 训 练 神经 网 络 中 ...' 
err = bpnet.train(myinput, mytarget, epochs=800, show=5, goal=0.0001) 
if err[lenl(err)-1]>0.0001: 
print u'\n 训 练 神经 网 络 失败 ...\n' 
else: 
print u'\n 训 练 神经 网 络 完毕 ' 
pl.subplot (211) 
pl.plot (err) 
pl.xlabel('Epoch number') 
pl.ylabel('error (default SSE)') 
# 对 样本 进行 测试 
simd= bpnet .sim(myinput) 
temp x=myinput 
temp d=mytarget 
simd/=tz 
temp_y=simd 
temp _d/=tz 


# 对 未 知 样本 进行 测试 
myinputtest=[[6], [9],[17], [20]] 
testsimd= bpnet.sim(myinputtest) 
end x=np.array (myinputtest) 
testsimd/=tz 

end y=testsimd 


x max=np.max (temp x) 
x_ min=np.min(temp x)-5 
y_max=np.max (temp_y)+2 
y_min=np.min (temp_y) 


pl.subplot (212) 
pl.xlabel (u"x") 
pl.xlim(x min, x _ max) 
pl.ylabel (u"y") 
pl.ylim(y min, y_max) 
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lp _ x1 = temp x 
lp_x2=temp_y 

lp d= temp d 
pl.plot (lp x1, lp x2, 'g-') 
Ppl.plot (end x, end y, 'ro') 
pl.plot (lp x1,1lp d,'b*') 


8.2 ”线性 滤波 
8.2.1 ”WAV 声音 文件 


声音 是 由 物体 的 机 械 振 动 而 形成 的 。 用 鼓 棒 敲 击 鼓 皮 ， 于 是 鼓 皮 发 生 振动 而 发 声 ; 吹 笛 
时 笛 腔 内 的 空气 柱 发 生 振 动 而 发 声 ; 把 音频 电流 送 入 扬声器 ,扬声器 的 纸 分发 生 振动 而 发 
声 。 发 生 声 音 的 振动 源 叫 作 “ 声 源 ”， 由 声 源 发 出 的 声音 ， 必 须 通 过 媒质 才能 传送 到 我 们 的 
耳 打 中 。 空 气 是 最 常见 的 媒质 ， 如 水 、 金 属 、 木 材 等 媒质 都 能 传播 声音 。 

WAYV 声音 文件 为 Microsoft 公司 开发 的 一 种 记录 声音 的 文件 格式 ， 它 符合 RIFF ( Resource 
Interchange File Format ) 文件 规范 ， 音 频 格式 未 经 过 压缩 ， 在 音质 方面 不 会 出 现 失真 的 情 
况 。 它 以 指定 频率 采样 ， 比 如 每 秒 采 样 44100 次 。 在 采集 声音 的 振动 状态 时 ， 它 会 使 用 模 / 
数 转换 器 〈A/D ) 以 每 秒 上 万 次 的 速率 对 声波 进行 采样 ， 每 一 次 采样 都 记录 下 了 原始 模拟 声 
波 在 某 一 时 刻 的 状态 ， 采 样 的 结果 即 为 样本 。 将 一 串 样本 连接 起 来 ， 就 可 以 描述 一 段 声波 了 。 


8.2.2 ”线性 滤波 算法 过 程 

神经 网 络 既 可 以 进行 函数 拟 合 ， 也 能 对 波形 数据 进行 拟 合 。 下 面 将 输入 x 作为 隐 数 的 自 
变量 ,将 神经 网 络 输出 的 数据 y》 作 为 函数 ftx) 的 输出 ， 然 后 应 用 该 拟 合 功能 进行 一 个 线性 滤 
波 ， 以 实现 去 除 周 围 环境 的 噪音 ， 使 说 话 声音 更 清楚 。 

下 面 以 从 含有 音乐 的 语音 中 去 除 背 景 音乐 为 例 进行 讲解 。 具 体 算法 过 程 如 下 : 

( 1) 读 取 该 机 器 学 习 算 法 必需 的 两 个 素材 文件 : 含有 背景 音乐 的 语音 和 部 分 背景 音乐 。 
细心 的 读者 一 定 会 问 ， 既 然 已 经 有 背景 音乐 这 个 文件 ， 那 么 直接 从 语音 的 波形 数据 减 去 背景 
音乐 ， 这 样 就 完成 了 背景 音乐 的 过 滤 。 没 错 ， 但 是 不 能 直接 减 去 源 背景 音乐 。 原 因 如 下 : 

在 对 声波 进行 采样 时 ， 虽 然 同时 对 背景 音乐 和 语音 进行 了 采样 ， 但 采样 过 程 很 可 能 会 被 
周边 的 音源 、 采 样 音量 等 很 多 因素 干扰 ， 导 致 采样 形成 的 背景 音乐 波形 并 不 是 源 背景 音乐 的 
波形 。 如 果 直 接 使 用 源 背景 音乐 进行 减 ， 将 会 导致 滤波 后 的 语音 文件 有 杂音 且 部 分 失真 。 我 
们 要 做 的 是 干净 地 将 背景 音乐 吻 除 。 

(2 ) 采样 器 先 采样 一 小 段 背景 音乐 ， 然 后 再 采集 语音 文件 。 其 好 处 在 于 : 生成 了 经 过 采 
样 后 的 背景 音乐 样本 ， 这 些 样 本 就 是 神经 网 络 拟 合 训练 样本 中 的 目标 输出 值 。 

(3 ) 用 神经 网 络 进 行 训练 ， 输 入 样本 为 源 背景 音乐 中 相当 于 采样 背景 音乐 长 度 的 波形 数 
据 ， 输 出 目标 为 采样 器 开始 采集 的 小 段 背景 音乐 波形 数据 。 

(4) 训练 达到 期 望 误 差 率 或 达到 最 大 训练 次 数 后 ， 将 源 背景 音乐 作为 未 知 样本 数据 送 人 
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神经 网 络 ， 其 预测 输出 就 是 拟 合 后 的 采样 背景 音乐 。 

(5 ) 将 混杂 有 背景 音乐 的 语音 文件 波形 数据 直接 减 去 拟 合 后 的 采样 背景 音乐 ， 得 到 去 除 
背景 音乐 的 纯净 语音 。 

自 适应 线性 滤波 器 的 工作 原理 也 是 如 此 : 先 采集 一 段 背景 噪声 ; 然后 用 噪声 数据 进行 拟 
合 ， 之 后 在 噪声 数据 和 背景 噪声 之 间 建 立 了 一 种 映射 关系 ; 最 后 ， 人 可 以 通过 该 系统 传送 语 
音 ， 说 话 周围 环 境 产生 的 背景 噪声 将 被 过 滤 。 


8.2.3 滤波 Python 实现 
下 面 用 Python 实现 上 述 步骤 。 
(1 ) 读 取 声音 素材 ， 代 码 如 下 : 


#!/usr/bin/env python 
OdLNg: 人 世人 -8 —%= 
#code:myhaspl@qq.com 
#8-5.py 

import numpy as np 
import wave 

import pylab as pl 
import copy 

print 'working...' 


print "read wav data...." 

err=[] 

# 打开 WAV 文 档 

f = Wave.openl(r"speak.wav", "rb") 

fo = wave.open(r"wait jg.wav", "wb") 
fi=wave.open(r"back.wav", "rb") 
fend=wave.open(r"end jg.wav", "wb") 


# 读 取 波形 数据 

# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 

nchannels, sampwidth, framerate, nframes = params[:4] 

str data = f.readframes (nframes) 


fi params=fi.getparams () 
fi nframes = fi Params[3] 
fi str data=fi.readframes (fi nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update wav data...." 

wave data = np.fromstring(str data, dtype=np.short) 

fi wave data= np.fromstring(fi str data, dtype=np.short) 


(2 ) 复制 波形 ， 在 一 个 随机 的 基数 基础 上 ， 将 背景 音乐 的 振幅 (音量 ) 稍微 变动 一 下 ， 
并 与 语音 合并 。 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合用 。 


emptywdata=np .zeros (framerate, dtype=np.short) 
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new_wave_data=np.hstack((empPtywdatarwave_datarwave_datarwave_datarwave 
data,wave data,wave data,wave data,wave data)) 

wave_data =copy.deepcopy (new wave data) 

nframes*=8 

nframes+=framerate/2 

temp wavedata=np.hstack( (fi wave data,fi wave data))[:len(new wave data)] 
backrnd=np.random.rand (len (new wave data))*10-5 

backbase=np.random.rand()*2+1 

temp_ wavedata=temp wavedata*backbaset+tbackrnd 

new wave data=temp wavedatatnew wave data 


new wave data=np.array (new wave data) 
new_wave data =new wave data.astype (wave_ data.dtype) 
new_str data=new wave data.tostring () 


(3 ) 拟 合 数据 ， 去 除 背 景 音乐 。 


jg_wave data=copy.deepcopy (new_wave_ data) 

jg_temp wavedata=np.hstack( (fi wave data,fi wave data))[:lenl(new wave data)] 
jg_temp wavedata=jg temp wavedata[:len(new wave data)]*w[1]+w[0] 

jg_wave data=jg wave data-jg temp wavedata 


for jg i in xrange(0,len(jg wave data)): 
if abs(jg wave data[jg i])<500: 
jg_wave data[jg_i]=0 
jg_wave_data[:framerate]=0 


jg_wave data =jg wave data.astype (wave data.dtype) 
jg_str data=jg wave data.tostring() 


print "save output wav...." 
fend.setnchannels (nchannels) 
fend.setframerate (framerate) 
fend.setsampwidth (sampwidth) 
fend,writeframes (jg_str data) 


完整 的 代码 如 下 : 


#!/usr/bin/env python 
#~“*— coding: utf-8 一 “一 
#code:myhaspl@qq.com 
#8-5.py 

import numpy as np 
import wave 

import pylab as pl 
import copy 

Print 'working..."' 


print "read wav data...." 
err=[] 


# 打开 WAV 文 档 


上 = wave.open(r"speak.wav", "rb") 
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fo = wave.open(r"wait jg.wav", "wb") 
fi=wave.open (r"back.wav", "rb") 
fend=wave.open(r"end jg.wav", "wb") 


# 读 取 波形 数据 

# (nchannels, sampwidth, framerate, nframes, comptype, compname) 
params = f.getparams () 

nchannels, sampwidth, framerate, nframes = Params[:4] 

str data = f.readframes (nframes) 


fi params=fi.getparams () 
fi nframes = fi params[3] 
fi str data=fi.readframes (fi nframes) 


# 将 波形 数据 转换 为 数组 ， 并 更 改 

print "update wav data...." 

wave data = np.fromstring(str data, dtype=np.short) 

fi wave data= np.fromstring(fi str data, dtype=np.short) 


# 复 制 并 将 背景 音乐 的 振幅 (音量 ) 在 一 个 随机 的 基数 基础 上 稍微 变动 后 ， 与 语音 合并 

# 前 面 预 留 一 段 经 过 波形 调整 后 的 背景 音乐 ， 以 供 线性 神经 网 络 拟 合用 

emptywdata=np.zeros (framerate, dtype=np.short) 

new wave data=np.hstack( (emptywdata,wave data,wave data,wave data,wave_ 
data,wave data,wave data,wave data,wave data)) 

wave data =copy.deepcopy (new_ wave_ data) 

nframes*=8 

nframes+=framerate/2 

temp wavedata=np.hstack( (fi wave data,fi wave data))[:len(new wave data)] 
backrnd=np.random.rand(len (new wave data))*10-5 
backbase=np.random.rand()*2+1 

temp_wavedata=temp wavedata*backbasetbackrnd 

new wave data=temp wavedatatnew wave data 


new_ wave data=np.array (new wave data) 

new wave data =new wave data.astype (wave data.dtype) 
new_str data=new wave data.tostring() 

# 写 波形 数据 参数 

print "save mix wav files...." 

fo.setnchannels (nchannels) 

fo.setframerate (framerate) 

fo.setsampwidth (sampwidth) 

fo.writeframes (new_str data) 


# 线 性 逼近 前 段 噪 声 
b=1 

a0=5e-1 

a=0.0 

r=1.5 

x=[] 

d={] 
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ii=0 
for audio i in xrange(0,framerate/2): 
if fi wave data[laudio i]!=0.: 
x.append([]) 
x[ii] .append (1) 
x[ii] .append (fi wave data[laudio i]) 
d.append (new_wave_data[audio i]) 
ii+=1 
if ii>100: 
break 
x=np.array (Xx) 
d=np.array (d) 


w=np.random.rand(2)*np.mean (x)#np.array ([b,0]) 
expect e=15 
maxtrycount=10000 
mycount=0 
def sgn(v) : 
return  Y 
def get_V(mywrmyx) : 
return sgnl(np.dot (myw.T,myx)) 
def neww (oldw,myd,myx,a): 
mye=get _e (oldw,myx,myd) 
a=a0/ (1+float (mycount) /r) 
return (oldwta*mye*myx,mye) 
def get el(myw,myx,myd): 
return myd-get v(myw,myx) 


while True: 
mye=0. 
i=0 
for xn in x: 
We=neww (w, d[i],xn,a) 
i+=1 
mye+=pow (e, 2) 
mye=np. sqrt (mye) 
mycount+=1 
err.append (mye) 
print u" 第 %qd 次 调整 后 的 权 值 : "%mycount 
print w 
Print u" 误 差 : %$f"%mye 
if abs (mye) <expect e or mycount>maxtrycount:break 


print "w:[%f,%f]"%$(w[0],w[1]) 


# 复 制 并 除去 背景 声音 

jg_wave data=copy.deepcopy (new wave data) 

jg_ temp wavedata=np.hstack((fi wave data,fi wave data))[:lenl(new wave data)] 
jg_temp wavedata=jg temp wavedata[:len(new wave data)]*w[l1]+w[0] 

jg _wave data=jg wave data-jg temp wavedata 
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for jg i in xrange(0,len(jg wave data)): 
if abs (jg wave data[jg i])<500: 
jg_wave data[jg i]=0 
jg wave data[:framerate]=0 


jg wave data =jg wave data.astype (wave data.dtype) 
jg_str data=jg wave data.tostring() 


print "save output wav...." 

fend.setnchannels (nchannels) 
fend.setframerate (framerate) 
fend.setsampwidth (sampwidth) 
fend.writeframes (jg str data) 


# 绘制 波形 
time = np.arange (0, nframes) * (1.0 / framerate) 
wave_ data.shape = -1, 2 


wave data = wave data.T 


pl.subplot (321) 

pl.plot (time, wave data[0]) 
pl.subplot (322) 

pl.plot (time, wave data[ll], c="g") 
pl.xlabel ("time (seconds)") 


# 绘制 波形 
new wave data.shape = -1, 2 
new wave data =new wave data.T 


pl.subplot (323) 

pl.plot (time,new wave data[0]) 
pl1.subplot (324) 

pl.plot (time, new wave datal[l], c="g") 
pl.xlabel ("time (seconds)") 

pl.show() 


# 绘制 波形 
jg_wave data.shape = -1, 2 
jg wave data =jg wave data.T 


pl.subplot (325) 

pl.plot (time,jg wave data[0]) 
pl.subplot (326) 

pl.plot (time, jg wave datal[1l], c="g") 
pl.xlabel ("time (seconds)") 

pl.show() 
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如 图 8-32 所 示 是 程序 运行 完毕 后 生成 的 效果 图 。 最 上 面 的 两 张 图 是 无 背景 音乐 语音 文 
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件 的 两 个 声 道 的 波形 图 ， 中 间 是 混杂 了 背景 音乐 的 语音 文件 ， 下 面 是 经 过 线性 滤波 后 生成 的 
纯净 语音 文件 。 
























15 000 15 000 
10 000 10 000 
5 000 
—5 000 —5 000 
一 10 000 一 10 000 
一 15 000 一 15 000 
20 000 20 0000 2468 10 12 14 16 
15 000 15 000 
10 000 10 000 
5 
00 ;00 
一 10 000 一 10 000 
东 品 中 
15 000 15 000 2 1 0 
10 000 10 000 
5 000 
0 
—5 000 —5 000 
一 10 000 一 10 000 
一 二 一 一 上 一 一 一 一 
0 2 4 6 8 10 12 14 16 150090 2 4 6 8 10 12 14 16 


time (seconds) 


图 8-32 ”线性 滤波 效果 


观察 图 8-32 可 看 出 ， 线 性 滤波 的 效果 是 不 错 的 。 读 者 可 以 从 本 书 的 资源 包 中 下 载 相 关 
程序 ， 执 行 后 ， 用 音箱 播放 滤波 后 的 语音 ， 听 听 效 果 ， 是 否 还 能 听 出 背景 音乐 。 


8.3 小 结 


本 章 主要 介绍 了 使 用 回归 方程 模型 和 神经 网 络 进 行 数据 拟 合 的 方式 ， 重 点 讲解 了 回归 方 
程 估计 及 其 散 点 图 分 析 、 神 经 网 络 对 函数 和 数值 的 拟 合 、 线 性 滤波 去 除 语音 背景 噪声 等 。 

数据 拟 合 是 通过 理想 的 假设 方程 来 拟 合 数据 的 ， 得 到 这 个 假设 方程 有 两 种 方法 : 第 一 ， 
可 以 通过 观察 样本 数据 点 的 分 布 来 估计 所 属 函 数 图 像 ， 在 拟 合 后 计算 相关 统计 指标 ， 估 计 拟 
合 的 效果 ; 第 二 ， 以 假设 方程 的 自 变量 为 输入 样本 ， 因 变量 为 样本 的 目标 输出 ， 通 过 神经 网 
络 进行 训练 ， 以 权 值 矩 阵 和 众多 神经 元 的 激活 函数 等 神经 网 络 组 件 完成 输入 到 输出 的 映射 ， 
其 实质 是 建立 一 个 更 复杂 的 拟 合 模型 实现 数据 拟 合 。 


思考 题 


(1 ) 假设 有 两 类 数据 ， 下 面 是 这 两 类 数据 的 分 布 散 点 图 ， 从 图 像 上 分 析 拟 合 这 些 数据 的 
函数 方程 。 
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.2 | 
-2 5 :=A -QS 0 0.5 1 1.5 2 


(2 ) 编写 Python 代码 实现 多 层 感知 器 ， 拟 合 y=0.7sin(x)+0.3cos(x) 函数 。 
(3 ) 本 章 讲 解 了 通过 线性 滤波 去 除 背 景 音 乐 的 方法 。 请 尝试 用 非 线性 滤波 解决 这 个 问 
题 ， 即 : 使 用 多 层 感知 器 对 背景 音乐 进行 拟 合 ， 然 后 将 它 从 语音 文件 中 去 除 。 
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图 像 识别 案例 


计算 机 视觉 是 一 门 研究 如 何 使 机 器 “看 懂 ” 图 像 的 科学 ， 即 用 摄像 机 和 计算 机 代替 人 
眼 对 目标 进行 识别 、 跟 踪 和 测量 等 。 首 先 ， 使 用 摄像 机 等 设备 采集 画面 ， 生 成 数字 图 像 ; 然后 ， 
用 计算 机 对 图 像 进行 分 析 ， 相 当 于 人 的 大 脑 对 眼睛 采集 的 信息 进行 加 工 ， 得 到 所 需 的 信息 。 

计算 机 视觉 、 图 像 处 理 、 图 像 分 析 、 机 器 人 视觉 、 机 器 视觉 等 都 是 彼此 紧密 关联 的 学 
科 ， 这 些 学 科 都 属于 人 工 智 能 的 范畴 ， 它 们 的 研究 目的 都 是 使 机 器 人 (计算机) 和 人 一 样 ， 
能 看 到 图 像 ， 理 解 图 像 ， 学 习 图 像 中 包含 的 知识 。 机 器 学 习 是 人 工 智 能 的 核心 技术 ， 基 于 机 
器 学 习 的 图 像 算法 应 用 于 图 像 处 理 与 分 析 领 域 ， 其 作用 相当 于 人 类 大 脑 加 工 和 处 理 视觉 神经 
反馈 的 图 像 。 

机 器 学 习 算法 加 工 数字 图 像 的 目的 是 提取 所 需 的 知识 和 信息 ， 主 要 解决 识别 与 监测 、 运 
动 分 析 、 场 景 重 建 、 图 像 恢复 等 问题 。 其 算法 过 程 主要 包括 : 图 像 获 取 、 预 处 理 、 特 征 提 
取 、 加 工分 析 、 提 取 知识 等 。 比 如 : OCR 算法 首先 通过 电子 设备 扫描 纸 上 打 印 的 字符 ; 然 
后 检测 暗 、 亮 的 模式 来 确定 其 形状 ; 最 后 用 智能 识别 方法 将 形状 翻译 成 计算 机 文字 。 


9.1 图 像 边 缘 算法 


9.1.1 数字 图 像 基 础 

再 次 复习 一 下 数字 图 像 的 知识 。 数 字 图 像 在 计算 机 中 保存 为 二 维 整数 数组 ， 数 组 中 元 素 
是 二 维 图 像 中 的 像素 ， 每 个 像素 都 用 有 限 数值 表示 ， 对 应 于 二 维 空间 中 一 个 特定 的 位 置 。 图 
像 是 由 二 维 像素 点 组 成 的 矩阵 ， 通 常 每 个 像素 点 由 3 个 元 素 组 成 一 一 红 、 绿 、 蓝 ， 这 3 个 基 
本 分 量 可 以 组 成 高 清 的 图 像 。 也 可 以 把 图 像 上 的 每 个 像素 点 理解 为 (x,y,z) 这 样 的 一 个 点 ， 这 
个 点 定义 在 三 维 空间 ， 每 一 维 分 别 代表 红 、 绿 、 蓝 分 量 。 

假设 将 像素 的 顺序 定义 为 : 蓝 、 绿 、 红 ,那么 就 可 以 定义 一 个 像素 点 为 (blue,green,red)。 
每 个 图 像 由 大 量 的 像素 点 组 成 ， 如 果 将 这 个 像素 点 组 成 的 矩阵 定义 为 及 x 政大 小 (五 为 高 ，W 
为 宽 )， 那 么 就 得 到 了 一 个 有 x x3 的 和 矩阵 (“3” 表 示 像 素 点 的 数值 由 3 个 基本 分 量 组 成 )。 
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OpenCV 作为 图 像 算 法 库 ， 对 图 像 矩阵 也 是 这 么 定义 的 。 请 提前 安装 好 OpenCV， 本 章 大 部 分 
例子 都 需要 它 的 Python 绑 定 库 。 

假设 图 像 矩 阵 的 变量 名 为 img， 现 在 要 用 Python 实现 一 个 蓝 色 分 量 为 200、 绿 色 为 
100、 红 色 为 50 的 像素 点 的 定义 ， 这 个 像素 点 位 于 图 像 的 300 x 150 处 。 代 码 如 下 : 


img[300,150,0]=200 
img[300,150,1]=100 
img[300,150,2]=50 


9.1.2 ”算法 描述 


算法 的 基本 原理 是 : 将 当前 像素 与 邻接 的 下 部 和 右 部 的 像素 进行 比较 ， 如 果 相 似 ， 则 将 
当前 像素 设置 为 黑色 ， 和 否则 设置 为 白色 。 如 何 判 定 像素 相似 呢 ? 应 用 欧 氏 距离 算法 ， 将 一 个 
像素 的 3 个 色彩 分 量 映射 在 三 维 空间 中 ， 如 果 2 个 像素 点 的 欧 氏 距离 小 于 某 个 常数 的 阔 值 ， 
就 认为 它们 相似 。 算 法 的 最 终 效果 如 图 9-1 所 示 。 图 9-1 中 左 图 是 原 图 像 ， 右 图 是 计算 图 像 
边缘 的 结果 。 





图 9-1 图 像 边缘 


上 面 涉及 的 算法 其 关键 是 欧 氏 距离 计算 。 下 面 用 Python 编写 计算 欧 氏 距离 的 函数 。 


def get EuclideanDistance (x,y): 
myx=np .array (xX) 
myy=np.array (y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 


完整 的 代码 为 : 


#!/usr/bin/env Python 
#-*- coding: utf-8 -*— 
#code:myhaspl@qq.com 
#9-1 .py 

import cv2 

import numpy as np 


fn="testl1 .jpg" 
def get EuclideanDistance (x,y): 


myx=np.array (x) 
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myy=np.array (y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 


Print 'loading %s ...' $% fn 
print 'working', 
myimgl = cv2.imread (fn) 
w=myimgl .shape[1] 
h=myimgl .shape[0] 
szl=w 
sz0=h 
# 创 建 空白 图 像 
myimg2=np.zeros ((sz0,szl,3)，np.uint8) 
# 对 比 产生 线条 
black=np.array([0,0,0]) 
white=np.array ([255,255,255]) 
centercolor=np.array([125,125,125]) 
for y in xrange (0,sz0-1): 

for x in xrange (0,sz1-1): 


mydown=myimgl [y+1,x,:] 
myright=myimgl[y,x+1,:] 


myhere=myimgl [y,x,:] 
lmyhere=myhere 
lmyright=myright 
lmydown=mydown 
if get EuclideanDistance (lmyhere,lmydown)>16 and get EuclideanDistan\ 
ce(lmyhere, lmyright)>16: 
myimg2[y,x,:]=black 
elif get _ EuclideanDistance (lmyhere,1lmydown)<=16 and get _ EuclideanDis\ 
tance (lmyhere, lmyright)<=16: 
myimg2[y,x,:]=white 
else: 
myimg2[y,x,:]=centercolor 
print Me™, 
cv2.namedWindow ('img2') 
Cv2.imshow('img2', myimg2) 
Cv2.waitKey() 
cv2.destroyAllWindows () 


9.2 图像 匹 配 


图 像 匹配 算法 是 基于 像素 的 比较 和 计算 来 实现 的 方法 。 如 图 9-2 所 示 是 美国 的 X-47B， 
它 是 人 类 历史 上 第 一 架 无 需 人 工 干预 、 完 全 由 计算 机 智能 操纵 的 无 人 驾驶 飞机 。 现 在 以 其 在 
航母 起 飞 的 图 像 为 例 讲解 本 节 内 容 。 
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图 9-2 X-47B 航母 起 飞 


如 图 9-3 所 示 为 图 9-2 的 两 张 局 部 切片 图 。 我 们 的 任务 是 找到 两 张 切 片 图 在 图 9-2 中 的 
位 置 ， 并 将 它们 标注 出 来 。 





图 9-3 ”两 张 X-47B 起 飞 画 面 切片 图 


9.2.1 差分 矩阵 求 和 


差分 算法 的 核心 在 于 差分 和 矩阵， 实质 为 差异 矩阵 ， 计 算 公式 很 简单 : 
差分 矩阵 = 图 像 A 矩阵 数据 - 图 像 B 矩阵 数据 

算法 过 程 是 : 首先 ， 计 算 两 个 图 像 的 矩阵 数据 之 间 差 异 分 析 图 像 的 相似 性 ; 然后 ， 设 置 
一 个 冰 值 进行 比较 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 在 阔 值 以 内 ， 则 表示 这 两 张 图 像 是 相似 
的 ， 且 描述 了 同一 物体 。 另 外 ， 它 要 求 两 个 图 像 的 大 小 相同 ， 大 小 处 理 对 于 计算 机 来 说 不 成 
问题 ， 改 变 图 像 尺 寸 的 算法 已 非常 成 熟 ， 实 现 起 来 很 方便 。 

编写 程序 实现 这 个 算法 的 基本 思路 为 : 将 图 9-3 所 示 的 切片 图 在 图 9-2 中 进行 移动 ， 并 
计算 两 个 图 像 的 差分 矩阵 ， 如 果 差 分 矩阵 的 所 有 元 素 之 和 小 于 1， 则 认为 找到 了 切片 图 在 图 
像 中 的 位 置 。 实 现 该 算法 的 Python 代码 如 下 : 


def showpiclocation (img,findimg): 
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# 定 位 图 像 
w=img.shape[1] 
h=img .shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
findpt=None 


for now h in xrange(0,h-fh): 
for now w in xrange (0,w-fw): 
comp_ tz=img[now h:now ht+fh,now w:now wt+fw,:]-findimg 
if np.suml(comp tz)<1: 


findpt=now _w,now _h 


PrinE ve 
if findpt!=None: 


cv2 .rectangle (img, 


return img 


findpt, (findpt [0]+fw,findpt[1]+fh), (255,0,0)) 


如 图 9-4 所 示 为 算法 效果 图 ， 看 上 去 识别 效果 不 错 。 





完整 的 Python 代码 如 下 : 


#!/usr/bin/env Python 
#=*= coding: utf=8 =*= 
#code:myhaspl@qq.com 
#9-2.py 

# 简 单 定位 图 像 


import cv2 
import numpy as np 
Print loading so..! 


图 9-4 切片 识别 效果 图 


def showpiclocation (img,findimg): 


# 定 位 图 像 

w=img .shape[1] 
h=img .shape[0] 
fw=findimg.shape[1l] 
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fh=findimg.shape[0] 
findpt=None 
for now h in xrange (0,h-fh) : 
for now w in xrange (0,w-fw): 
comp tz=img[now h:now ht+fh,now w:now wt+fw,:]-findimg 
if np.sum(comp tz)<1: 
findpt=now _w,now _h 
print, 
if findpt!=None: 
cv2.rectangle (img, findpt, (findpt [0]+fw,findpt[1]+fh), (255,0,0)) 
return img 


fn='pictest.png' 
fnl='pictesttl .png' 
fn2='pictestt2.png' 
myimg=cv2 .imread (fn) 
myimgl=cv2.imread (fn1) 
myimg2=cv2 .imread (fn2) 


myimg=showpiclocation (myimgvmyimgl) 
myimg=showpiclocation (myimg,myimg2) 
cv2.namedWindow('img') 
cv2.imshow('img', myimg) 

Cv2 .waitKey () 
CVv2.destroyAllWindows () 


9.2.2 :差分 矩阵 均值 


刚才 小 试 牛刀 ， 通 过 对 差分 矩阵 中 所 有 元 素 求 和 完成 了 匹配 ， 效 果 不 错 。 当 数字 图 像 质 
量 较 差 时 ， 则 需要 计算 差分 矩阵 的 均值 ， 并 为 均值 设 一 个 适当 的 阔 值 。 

下 面 仍 用 Python 编写 算法 ， 在 目标 图 中 加 上 少量 ( 50000 个 ) 不 同 颜色 的 噪声 点 ， 从 
而 测试 算法 在 弱 噪 声 环境 下 的 有 效 性 。 因 为 图 像 质量 不 高 ， 存 在 很 多 噪声 点 ， 所 以 要 将 差分 
和 矩阵 均值 的 阔 值 设置 得 稍 大 一 点 ， 这 里 设 为 20。 通 常 来 说 ， 阅 值 为 10~~200， 阅 值 越 大 ， 
能 容忍 的 噪声 点 越 多 。 但 如 果 阅 值 超过 200， 最 好 使 用 下 一 节 介 绍 的 欧 氏 距离 算法 。 如 
图 9-5 所 示 是 算法 应 用 效果 。 

Python 代码 如 下 : 


#!/usr/bin/env Python 
#=*=: coding: utf-8 ~*-~ 
#code:myhaspl@qq.com 
#9-3.py 

# 少 量 噪声 定位 图 像 


import cv2 
import numpy as np 


print vloading ss!' 
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图 9-5 ” 弱 噪 声 切片 识别 效果 图 〈 附 彩 图 ) 


def showpiclocation (img,findimg): 
# 定 位 图 像 
w=img .shape[1] 
h=img .shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
findpt=None 
for now h in xrange (0,h-fh): 
for now w in xrange (0,w-fw): 
comp tz=img[now h:now h+fh,now wi:inow w+fw,:]-findimg 
if abs (np.mean (comp tz))<20: 
findpt=now w,now_h 
print "ok" 
print "so", 
if findpt!=None: 
cV2 .rectangle (img, findpt, (findpt [0]+fw,findpt[1]+fh), (0,0,255)) 
return img 


def addnoise (img): 
coutn=50000 
for k in xrange (0,coutn): 
int (np.random.uniform(0,img.shape[1])) 


xi 


x int (np.random.uniform(0,img.shape[0])) 
img [xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand!() 


img [xj,xi,2]= 255 *np.random.rand() 


fn='pictest.png' 
fnl='pictesttl .png' 
fn2='pictestt2.png' 
myimg=cv2 .imread (fn) 
myimgl=cv2.imread (fnl) 
myimg2=cv2.imread (fn2) 
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addnoise (myimg) 
myimg=showpiclocation (myimg,myimgl1) 
myimg=showpiclocation (myimg,myimg2) 
cv2.namedWindow ('img') 
cv2.imshow('img', myimg) 

Cv2 .waitKey () 
cv2.destroyAllWindows () 


可 见 ， 在 弱 噪 声 的 情况 下 ， 差 分 算法 仍然 具有 很 好 的 匹配 效果 。 


9.2.3 欧 氏 距离 匹配 


1. 强 噪 声 图像 匹 配 
对 强 噪声 环境 下 的 图 像 进行 匹配 时 ， 欧 氏 距 离 匹 配方 法 相对 于 以 上 两 种 方法 会 有 更 好 的 
效果 。 


仍 以 上 面 的 图 像 为 目标 进行 讲解 。 首 先 ， 在 目标 图 像 中 加 上 更 多 的 ( 500000 个 ) 不 同 
颜色 的 噪声 点 。 代 码 如 下 : 


def addnoise (img): 

coutn=500000 

for k in xrange (0,coutn): 
xi = int(np.random.uniform(0,img.shape[1])) 
xj = int(np.random.uniform(0,img.shape[0])) 
img [xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand() 
img[xj,xi,2]= 255 *np.random.rand() 


生成 强 噪声 环境 下 的 图 像 ， 如 图 9-6 所 示 。 





图 9-6 强 噪 声 图 像 ( 附 彩 图 ) 


现在 要 应 用 欧 氏 距离 对 如 图 9-6 所 示 的 目标 图 完成 匹配 。 其 核心 算法 为 : 设 图 像 矩 阵 有 
n 个 元 素 ， 用 nn 个 元 素 值 (x1,x2,.….xn) 组 成 该 图 像 的 特征 组 ， 特 征 组 形成 了 n 维 空间 ， 特征 
组 中 的 特征 码 构成 每 一 维 的 数值 。 在 半 维 空间 下 ， 两 个 图 像 矩 阵 各 形成 了 一 个 点 ， 然 后 计算 
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这 两 个 点 之 间 的 距离 ， 距 离 最 小 者 为 最 匹配 的 图 像 。 

如 图 9-7 所 示 是 算法 应 用 的 效果 图 ， 欧 氏 距 离 算 法 成 功 地 找到 了 匹配 位 置 。 在 图 像 如 此 
模糊 的 情况 下 ， 人 用 肉眼 都 很 难 进 行 图 像 匹配 。 由 此 可 见 ， 机 器 学 习 算 法 在 某 些 方面 胜 过 人 
类 的 “智能 ”。 





图 9-7 强 噪声 切片 识别 效果 图 ( 附 彩 图 ) 
完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#-*- coding: utf-8 ~—*— 
#code:myhaspl@qgq.com 
#9-4.py 

# 大 量 噪 声 定位 图 像 


import cv2 
import numpy as np 


print 'http://blog.csdn.net/myhaspl' 
print 'myhaspl@qq.com"' 

BrLint 

print loading sa." 


def get EuclideanDistance (x,y): 
myx=np.array (Xx) 
myy=np.array (Y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy))) 


def findpic(img,findimg,h, fh,w,fw): 
minds=1le8 
mincb h=0 
mincb w=0 
for now h in xrange(0,h-fh): 
for now w in xrange (0,w-fw): 
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my_img=img[now h:now h+fh,now w:now wtfw,:] 
my_findimg=findimg 
dis=get EuclideanDistance (my img,my findimg) 
if dis<minds: 
mincb h=now _h 
mincb w=now _w 
minds=dis 
下 让 
findpt=mincb wmincb h 
cv2.rectangle (img, findpt, (findpt[0]+fw,findpt[1]+fh), (0,0,255)) 
return img 


def showpiclocation (img, findimg): 
# 定 位 图 像 
w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
return findpic(img,findimg,h,fh,w,fw) 


def addnoise (img) : 
coutn=500000 
for k in xrange (0,coutn): 


Xi int (np.random.uniform(0,img.shape[1])) 
int (np.random.uniform(0,img.shape[0])) 
img[xj,xi,0]= 255 *np.random.rand () 
img[xj,xi,1]= 255 *np.random.rand() 


img[xj,xi,2]= 255 *np.random.rand() 


Xj 


fn='pictest.png' 
fnl='pictesttl1 .png’ 
fn2='pictestt2.png' 
myimg=cv2.imread (fn) 
myimgl=cv2.imread (fn1) 
myimg2=cv2.imread (fn2) 

addnoise (myimg) 
myimg=showpiclocation (myimg,myimg1) 
myimg=showpiclocation (myimg,myimg2) 
cv2.namedWindow('img') 
cv2.imshow('img', myimg) 

cv2 .waitKey () 
cv2.destroyAllWindows () 


2. 变形 图 像 匹 配 

欧 氏 距离 方法 不 仅 对 强 噪声 图 像 匹 配 有 效 ， 而 且 对 变形 后 的 图 像 匹 配 效果 也 不 错 。 如 图 
9-8 所 示 就 是 应 用 欧 氏 距离 方法 对 有 倾斜 角度 的 图 像 进行 匹配 的 效果 。 

算法 原理 前 面 已 经 解说 过 ， 在 此 不 重复 。 相 关 的 Python 代码 实现 如 下 : 

#!/usr/bin/env Python 


#=*=s Coding: Utf=8 =*— 
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图 9-8 ”倾斜 图 像 匹 配 效 果 图 


#code:myhaspl@qq.com 
#9-5.py 
# 图 像 倾 斜 后 定位 图 像 


import cv2 
import numpy as np 


print 'loading ...! 


def get EuclideanDistance (x,y): 
myx=np.array (x) 
myy=np.array (y) 
return np.sdqrt (np.sum( (myx-myy)* (myx-myy))) 


def findpic(img,findimg,h,fh,w,fw): 
minds=le8 
mincb _h=0 
mincb w=0 
for now h in xrange(0,h-fh): 
for now w in xrange (0,w-fw): 
my_img=img [now h:now h+fh,now w:now wt+fw,:] 
my_findimg=findimg 
dis=get EuclideanDistance (my img,my findimg) 
if dis<minds: 
mincb h=now _h 
mincb w=now _w 
minds=dis 
DELNRE, "ns 
findpt=mincb w,mincb h 
cv2 .rectangle(img, findpt, (findpt [0]+fw,findpt[1]+fh), (0,0,255)) 
return img 
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def showpiclocation (img,findimg): 
# 定 位 图 像 
w=img .shape[1] 
h=img.shape[0] 
fw=findimg.shape[1] 
fh=findimg.shape[0] 
return findpic(img,findimg,h,fh,w,fw) 


fn='pictestxz.png' 
fnl='pictesttl1 .png' 
fn2='pictestt2.png' 
myimg=cv2 .imread (fn) 
myimgl=cv2.imread (fn1) 
myimg2=cv2.imread (fn2) 


myimg=showpiclocation (myimg,myimgl1) 
myimg=showpiclocation (myimg,myimg2) 
cv2 .namedWindow('img') 
cv2.imshow('img', myimg) 

Cv2 .waitKey () 
cv2.destroyAllWindows () 


欧 氏 距离 对 弱 噪 声 环境 下 的 变形 图 像 仍 有 不 错 的 效果 ， 如 图 9-9 所 示 。 





图 9-9 弱 噪声 变形 图 像 匹 配 


该 算法 的 Python 实现 代码 如 下 : 


#!/usr/bin/env python 
#-*— coding: utf-8 —*-— 
#code:myhaspl@qq.com 
#9-6.py 

# 图 像 倾 斜 后 加 噪声 点 ， 定 位 图 像 


import cv2 
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import numpy as np 


下 ‘Loading sc 
def get EuclideanDistance (x,y): 
myx=np.array (x) 
myy=np.array (y) 
return np.sdqrt (np.sum( (myx-myy)* (myx-myy))) 


def findpic(img,findimg,h,fh,w,fw): 
minds=le8 
mincb _h=0 
mincb w=0 
for now h in xrange(0,h-fh): 
for now w in xrange (0,w-fw): 
my_img=img [now _h:now_h+fh,now w:now wt+fw,:] 
my _ findimg=findimg 
dis=get EuclideanDistance (my img,my findimg) 
if dis<minds: 
mincb h=now _h 
mincb w=now_w 
minds=dis 
BEEnt, .ne, 
findpt=mincb w,mincb h 
cv2 .rectangle (img, findpt, (findpt[0]+fw,findpt[1]+fh), (0,0,255)) 
return img 


def showpiclocation (img,findimg): 
# 定 位 图 像 
w=img.shape[1] 
h=img.shape[0] 
fw=findimg.shape[1l] 
fh=findimg.shape[0] 
return findpic (img,findimg,h,fh,w,fw) 


def addnoise (img): 
coutn=50000 
for k in xrange(0,coutn): 


让 出 
Xj 
img [xj,xi,0]= 255 *np.random.rand() 
img[xj,xi,1]= 255 *np.random.rand() 


int (np.random.uniform(0,img.shape[1])) 


int (np.random.uniform(0,img.shape[0])) 


img[xj,xi,2]= 255 *np.random.rand() 


fn='pictestxz.png' 
fnl='pictesttl1 .png' 
fn2='pictestt2.png' 
myimg=cv2.imread (fn) 
myimgl=cv2.imread (fn1) 
myimg2=cV2 .imread (fn2) 
addnoise (myimg) 
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myimg=showpiclocation (myimg,myimgl1) 
myimg=showpiclocation (myimg,myimg2) 
cv2.namedWindow('img') 
cv2.imshow('img', myimg) 

Cv2 .waitKey () 
cv2.destroyAllWindows () 


9.3 图像 分 类 


近年 来 随 着 多 媒体 技术 的 发 展 ， 图 像 分 类 技术 受到 了 普遍 的 关注 ， 目 前 采用 的 方法 以 机 
髓 学 习 算 法 为 主 。 图 像 分 类 利用 计算 机 对 图 像 进行 分 析 ， 根 据 图 像 信息 的 不 同 特征 ， 将 不 同 
类 别 的 图 像 区 分 开 来 。 

图 像 分 类 的 算法 过 程 如 下 : 

(1 ) 准备 样本 图 像 。 样 本 图 像 的 要 求 是 : 能 代表 所 属 类 别 中 尽 可 能 多 的 图 像 。 

(2 ) 提取 每 个 样本 的 特征 后 ， 形 成 类 别 特征 码 。 

(3 ) 应 用 机 器 学 习 算 法 对 类 别 特征 码 进行 学 习 ， 提 取 特 征 码 包含 的 图 像 知 识 。 

(4 ) 判断 未 知 图 像 所 属 类 别 。 


9.3.1 余弦 相似 度 


余弦 相似 度 通过 测量 两 个 向 量 内 积 空间 的 夹 角 的 余弦 值 来 度量 它们 之 间 的 相似 性 ， 尤 其 
适用 于 任何 维度 的 向 量 比较 中 ， 因 此 属于 高 维 空间 应 用 较 多 的 机 絮 学 习 算 法 。 通 常 来 说 ， 数 
字 图 像 包 含 的 特征 码 较 多 ， 而 这 些 特征 组 就 属于 高 维 空间 ， 这 正 是 余弦 相似 度 算法 应 用 的 范 
围 ， 算 法 将 每 个 图 像 的 特征 组 转化 为 高 维 空间 的 向 量 ， 两 个 向 量 之 间 的 角度 之 余弦 值 可 用 于 
确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 

在 图 像 分 类 中 应 用 余弦 相似 度 算法 的 关键 在 于 : 计算 这 些 代表 每 个 图 像 特征 的 向 量 的 内 
积 空间 的 夹 角 余 弦 值 ， 从 而 度量 图 像 之 间 的 相似 性 。 对 于 相似 性 的 衡量 标准 有 以 下 两 种 : 

口 为 相似 性 设置 一 个 阔 值 。 在 这 个 阔 值 以 内 的 都 属于 同一 类 别 图 像 。 这 种 标准 可 以 将 
图 像 划 分 为 多 种 类 型 ， 例 如 : 高 楼 不 但 属于 城市 美景 ， 而 且 属于 写字 楼 景观 。 

口 选择 与 样本 向 量 的 余弦 相似 度 最 接近 1 的 图 像 为 该 类 别 图 像 。 这 种 标准 只 能 将 图 像 
划分 为 一 种 类 别 。 

1. 算法 描述 

下 面 针对 第 二 种 衡量 标准 讲解 余弦 相似 度 算法 。 

特征 提取 一 直 是 图 像 处 理 和 计算 机 视觉 研究 领域 中 一 个 值得 探讨 的 问题 ， 在 计算 机 科 
学 、 医 疗 辅助 诊断 、 军 事 、 工 业 测 量 等 众多 领域 都 广泛 采用 这 一 技术 ， 尤 其 是 在 计算 机 视觉 
和 模式 识别 的 研究 中 。 如 何 准 确定 位 和 提取 关键 特征 往往 是 首先 需要 解决 的 问题 之 一 ， 是 提 
高 识别 率 等 问题 的 重要 前 期 准备 和 关键 因素 。 目 前 图 像 特征 提取 算法 较 多 ， 不同 的 算法 适应 
于 不 同 的 图 像 分 析 任 务 。 
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本 节 讲 述 的 算法 基本 原理 是 : 把 图 像 上 的 点 分 为 不 同 的 子 集 ， 这 些 子 集 往往 属于 孤立 的 
点 、 连 续 的 曲线 或 者 连续 的 区 域 。 将 这 些 点 按 区 域 组 成 子 集 ， 提 取 子 集 的 特征 后 ， 将 每 个 子 
集 的 特征 作为 图 像 的 一 个 特征 项 来 进行 计算 。 

(1) 样本 特征 。 设 图 像 分 为 普 个 区 域 ， 每 个 区 域 有 并 个 像素 ， 每 个 像素 在 图 像 矩阵 中 
以 红 、 绿 、 蓝 三 色 来 表示 ， 且 区 域 特征 计算 方式 为 : 


2 像素 ;颜色 的 红色 分 量 值 “和 像素 i 颜色 的 绿色 分 量 值 
ee ee n 
多 像素 i 颜色 的 蓝 色 分 量 什 
n 
那么 ， 样 本 特征 码 矩 阵 为 3 x m， 即 共 3 行 m 列 ,这 3 行 分 别 代表 红 、 绿 、 蓝 三 个 分 量 ， 
每 列 为 各 分 量 的 区 域 特征 码 。 
(2 ) 类 别 特征 。 这 里 为 每 个 类 别 准备 了 3 个 样本 ， 类 别 特征 的 计算 方式 为 : 
Pe i 
0 alta uals 
之 样本 ;的 蓝 色 分 量 特征 值 
3 
其 中 ,样本 i 是 属于 该 类 别 的 样本 。 
在 计算 出 类 别 特征 后 ， 算 法 对 样本 学 习 完 毕 。 当 有 未 知 图 像 需 要 分 类 时 ， 首 先 计算 其 图 
像 的 样本 特征 ， 然 后 将 样本 特征 和 类 别 特征 映射 为 高 维 空间 的 向 量 ， 最 后 计算 这 两 个 向 量 的 
余弦 相似 度 ， 选 择 余弦 相似 度 最 大 的 类 别 为 未 知 图 像 对 应 的 类 别 。 


2. 算法 应 用 

下 面 以 风景 图 像 分 类 为 例 说 明 余 弦 相 似 
度 的 应 用 。 为 每 个 类 别 各 准备 3 个 样本 图 像 ， 
提取 类 别 特征 码 ， 然 后 将 如 图 9-10 一 图 9-12 
所 示 的 3 个 待 分 类 图 像 划分 到 蓝天 风景 、 树 
林 风 景 、 瀑 布 风景 这 3 个 分 类 中 。 


3. Python 实现 

(1) 将 图 9-10 一 图 9-12 分 别 从 上 到 下 、 
从 左 到 右 分 割 成 若干 块 状 区 域 ， 对 每 块 区 域 
的 图 像 像 素 特征 进行 提取 后 ， 形 成 这 3 个 待 
分 类 图 像 的 特征 码 。 下 面 的 代码 所 示 的 函数 
readpic 定义 了 分 割 并 提取 特征 码 的 操作 ， 以 


待 分 类 图 像 为 参数 调用 该 函数 ， 完 成 特征 码 
计算 。 图 9-10 ”蓝天 风景 





区 霸权 -| 
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图 9-11 树林 风景 图 9-12 瀑布 风景 


def readpic (fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread (fn) 
img=cv2.resize (fnimg, (800,600)) 
w=img .shape[l] 
h=img.shape[0] 
w interval=w/w_ fg 
h interval=h/h fg 
alltz=[] 
alltz.append([]) 
alltz.append([]) 
alltz.append([]) 
for now h in xrange(0,h,h interval): 
for now w in xrange (0,w,w_interval): 
b = img[now h:now h+h interval,now w:now w+tw_ interval,0] 
g = img[now h:now h+h interval,now w:inow wtw interval,1] 
r= img[now h:now h+h interval,now w:now w+w_ interval,2] 
btz=np.mean (b) 
gtz=np.mean (9g) 
rtz=np.mean (r) 
alltz[0] .append (btz) 
alltz[1] .append (gtz) 
alltz[2] .append (rtz) 
return alltz 


(2 ) 计算 类 别 特征 码 。 通 过 每 个 类 别 所 有 样本 的 区 域 特征 的 平均 值 ， 提 取 类 别 特征 。 代 
码 如 下 : 
# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 


for ii in xrange(l,picflag+1): 
smp_x=[] 
b tz=np.array([0,0,0]) 
g_ tz=np.array([0,0,0]) 
r tz=np.array([0,0,0]) 
mytz=np.zeros((3,w fg*h fg)) 
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for jj in xrange (1,3): 
fn='p'+str (i4)+'-'+str (jj)+' .png'’ 
tmptz=readpic (fn) 
mytzt+=np.array (tmptz) 
mytz/=3 
train x.append (mytz[0] .tolist()+mytz[1] .tolist()+mytz[2].tolist() ) 


(3 ) 计算 待 分 类 图 像 的 特征 码 与 每 个 类 别 特 征 码 之 间 的 余弦 距离 ， 距 离 最 大 者 为 图 像 所 
属 分 类 。 下 面 的 代码 计算 了 ptest3.png 图 像 与 每 个 类 别 特征 码 的 余弦 相似 度 。 


fn='ptest3.png' 
testtz=np.array (readpic (fn)) 
simtz=testtz[0] .tolist()+testtz[1] .tolist()+testtz[2] .tolist() 
maxtz=0 
nowi=0 
for i in xrange (0,picflag): 
nowsim=get cossimi (train x[il],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 $d 类 '% (fn, nowi+1) 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#=*= coding: utf-8 -*- 
#code:myhaspl@qq.com 
#9-7 .py 

# 余 弦 距 离 识别 图 像 类 型 
import numpy as np 
import cv2 


Print u' 正 在 处 理 中 ' 
w_fg=20 
h_ fg=15 
picflag=3 
def readpic (fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread (fn) 
img=cv2 .resize (fnimg, (800,600)) 
w=img .shape[1] 
h=img .shape [0] 
w_ interval=w/w_fg 
h_ interval=h/h fg 
alltz=[] 
alltz.append([]) 
alltz.append([]) 
alltz.append([]) 
for now h in xrange(0,h,h interval) : 
for now w in xrange (0,w,w_ interval): 
b = img[now h:now h+h interval,now wi:now w+tw interval,0] 
g = img[now h:now h+h interval,now w:now w+w_ interval,1] 
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r= img[now h:now h+h interval,now w:now witw_ interval,2] 
btz=np.mean (b) 

gtz=np.mean (9) 

rtz=np.mean ( 工 ) 

alltz[0] .append (btz) 

alltz[1] .append (gtz) 

alltz[2] .append (rtz) 

return alltz 


def get cossimi (x,y): 
myx=np.array (x) 
myy=np.array (y) 
cosl=np.sum (myx*myy) 
cos21=np.sqgrt (sum(myx*myx)) 
cos22=np.sqrt (sum(myy*myy)) 
return cosl/float (cos21*cos22) 


#x 和 d 样 本 初始 化 
train x¥ =[] 
d=[] 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange (1l,picflag+1): 
smp_x=[] 
b tz=np.array([0,0,0]) 
g_tz=np.array([0,0,0]) 
r tz=np.array([0,0,0]) 
mytz=np.zeros((3,w_ fg*h fg)) 
for JJj in xrange(l1,3): 
fn='p'+str (ii)+'-'+str (jj)+' .png' 
tmptz=readpic (fn) 
mytz+=np.array (tmptz) 
mytz/=3 
train x.append (mytz[0] .tolist()+mytz[1] .tolist()+mytz[2] .tolist()) 


fn='ptest3.png' 
testtz=np.array (readpic (fn)) 
simtz=testtz[0] .tolist()+testtz[{[1] .tolist()+testtz[2] .tolist() 
maxtz=0 
nowi=0 
for i in xrange (0,picflag): 
nowsim=get cossimi (train x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u' ss 属于 第 sd 类 !gs (fn, nowi+1) 


fn='ptestl1 .png' 
testtz=np.array (readpic (fn)) 
simtz=testtz[0] .tolist()+testtz[1] .tolist()+testtz[2] .tolist() 
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maxtz=0 
nowi=0 
for i in xrange (0,picflag): 
nowsim=get cossimi (train x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u's 属于 第 $d 类 '% (fn, nowi+1) 


fn='ptest2.png' 
testtz=np.array (readpic (fn)) 
simtz=testtz[0] .tolist()+testtz[1] .tolist()+testtz[2] .tolist() 
maxtz=0 
nowi=0 
for i in xrange (0,picflag): 
nowsim=get cossimi (train x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
nowi=i 
print u'%s 属 于 第 %d 类 '%$ (fn, nowi+1) 


运行 上 述 代码 ， 观 察 下 面 的 运行 结果 ， 可 见 对 算法 任务 中 列举 的 图 像 识 别 效果 不 错 。 


正在 处 理 中 

ptest3.png 属 于 第 3 类 
ptest1l1 .png 属 于 第 1 类 
Ptest2 .png 属 于 第 2 类 


本 节 中 每 个 类 别 仅 使 用 了 3 个 样本 ， 基 于 余弦 相似 度 的 算法 在 样本 量 较 小 的 情况 下 ， 效 
果 其 实 不 是 最 佳 的 。 例 如 : 在 测试 图 像 中 加 入 另 一 张 测 试图 ， 要 用 基于 余弦 相似 度 算 法 将 它 
分 类 ， 那 会 怎样 ? 修改 9-7.py， 代 码 如 下 : 


#!/usr/bin/env python 
#-*~ coding: utf-8 一 * 一 
#code:myhaspl@qq.com 
#9-8.py 
# 余 弦 距 离 识别 图 像 类 型 ， 有 一 张 图 像 不 能 正确 识别 
import numpy as np 
import cv2 
print u' 正 在 处 理 中 ' 
fn='ptest22.png' 
testtz=np.array (readpic (fn)) 
simtz=testtz[0] .tolist()+testtz[1] .tolist()+testtz [2] .tolist() 
maxtz=0 
nowi=0 
for i in xrange (0,picflag): 
nowsim=get cossimi (train x[i],simtz) 
if nowsim>maxtz: 
maxtz=nowsim 
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nowi=i 
print u'%s 属 于 第 %d 类 '% (fn, nowi+1) 
程序 运行 结果 如 下 : 
正在 处 理 中 
ptest3.png 属 于 第 3 类 
Ptest1.png 属 于 第 1 类 
ptest2.png 属 于 第 2 类 
ptest22 .png 属 于 第 3 类 
从 上 述 结果 看 ， 图 像 ptest22.png (如 图 9-13 所 示 ) 被 错误 地 分 到 了 第 三 类 ， 实 际 它 属 
于 第 二 类 树林 风景 图 像 。 





图 9-13” 待 分 类 图 像 


9.3.2 ”PCA 图 像 特征 提取 算法 


PCA 算法 基于 变量 协 方差 矩阵 对 信息 进行 压缩 和 处 理 ， 通 常用 于 数据 降 维 ， 可 将 它 用 
于 图 像 矩 阵 降 维 ， 以 降 维 后 的 和 矩阵 为 基础 提取 图 像 特征 。 当 提取 的 图 像 特 征 维 度 比较 高 时 ， 
为 了 简化 计算 量 以 及 储存 空间 ， 需 要 对 这 些 高 维 数据 进行 一 定 程度 上 的 降 维 ， 并 尽量 保证 数 
据 不 失真 。 此 外 ，PCA 算法 还 可 应 用 于 图 像 矩 阵 ， 它 能 找到 变化 大 的 维 ， 去 除 掉 那 些 变化 
不 大 的 维 ， 这 样 能 更 有 效 地 提取 图 像 明显 特征 ， 便 于 后 期 识别 算法 并 进一步 加 工 ， 因 为 图 像 
特征 组 含有 的 不 明显 的 特征 值 将 会 影响 识别 的 精度 。 

应 用 PCA 降 维 技术 ， 对 上 节 讲 述 的 图 像 特征 码 算法 进行 改进 ， 返 回 图 像 特征 码 。 下 面 
是 用 Python 实现 的 基于 PCA 的 图 像 特 征 码 算法 。 


def readpic (fn) : 
# 返 回 图 像 特征 码 
fnimg = cv2.imread (fn) 
img=cv2.resize (fnimg, (500,400)) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/20 
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h interval=h/10 
alltz=[] 
for now h in xrange(0,h,h interval): 
for now w in xrange(0,w,w interval): 
b = img[now h:now ht+h interval,now w:now w+w interval,0] 
g = img[now h:now h+h interval,now Ww:now w+w interval,1] 
r= img[now h:now h+h interval,now w:now wtw interval,2] 
btz=np .mean (b) 
gtz=np.mean (9) 
rtz=np.mean (r) 
alltz.append([btz,gtz,rtz]) 
result alltz=np.array(alltz).T 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k=len (result alltz)/2) 
result alltz =result alltz.reshape (len(result alltz)) 
return result alltz 


下 一 节 的 神经 网 络 与 SVM 图 像 分 类 算法 将 基于 本 节 描 述 的 PCA 技术 提取 图 像 特 征 
码 ， 然 后 进一步 分 析 和 计算 ， 得 到 图 像 所属 类 别 。 


9.3.3 ”基于 神经 网 络 的 图 像 分 类 

基于 神经 网 络 的 图 像 分 类 算法 比 余弦 相似 度 分 类 算法 的 普 适 性 更 好 ， 准 确 率 更 高 。 

1. 算法 描述 

神经 网 络 图 像 分 类 算法 首先 通过 PCA 技术 提取 样本 图 像 特征 码 与 待 分 类 图 像 特征 
码 ， 然 后 将 特征 码 送 入 神经 网 络 进行 训练 ， 让 神经 网 络 学 习 每 个 类 别 图 像 的 特征 ， 最 后 
将 未 知 类 别 图 像 送 入 神经 网 络 ， 自 动 识别 它 的 类 型 。 其 步骤 如 下 : 

(1) 基于 PCA 技术 提取 每 个 样本 的 图 像 特征 码 。 

(2 ) 根据 样本 特征 码 生成 输入 项 ， 根 据 样本 所 属 类 别 生 成 对 应 的 输出 项 。 

(3 ) 将 输入 与 输出 项 送信 非 线性 神经 网 络 训练 。 

(4 ) 基于 PCA 技术 生成 待 分 类 图 像 的 特征 码 。 

(5 ) 将 待 分 类 图 像 的 特征 码 送 入 神经 网 络 仿真 测试 ， 根 据 神经 网 络 输出 项 判断 其 所 属 
类 别 。 


2. 输出 目标 设计 
神经 网 络 的 输出 目标 以 及 输出 函数 的 设计 应 本 着 灵活 实用 的 原则 。 在 本 例 中 ， 神 经 网 络 
的 输出 值 为 3 个 图 像 类 别 ， 用 数字 1 一 3 来 表示 ， 但 不 能 直接 将 数字 作为 目标 输出 值 。 常 用 
的 表示 方式 有 以 下 几 种 。 
口 将 数字 转换 为 1 以 内 的 小 数 。 比 如 : 乘 以 输出 值 的 最 大 数 的 倒数 进行 调整 等 。 
口 按照 二 进 制 编 码 的 思路 ， 将 其 设计 为 如 下 形式 : 
1:[0,0,1] 
2:[0,1,0] 
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3:[0,1,1] 
或 者 ， 设 计 为 以 下 格式 (本 例 采 用 这 种 格式 ) : 
1:[0,0,1] 
2:[0,1,0] 
3:[1,0,0] 
输出 函数 的 设计 原则 是 : 将 输出 目标 值 转化 为 实际 样本 的 输出 值 格式 。 本 例 中 将 其 定 
义 为 : 
神经 网 络 输出 值 = 输出 目标 值 的 最 大 值 所 在 的 数组 索引 


3. Python 实现 
下 面 来 看 看 图 像 特征 码 计算 ， 代 码 如 下 : 


def readpic (fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread (fn) 
img=cv2.resize (fnimg, (500,400)) 
w=img .shape[1] 
h=img .shape [0] 
w_interval=w/20 
h interval=h/10 
alltz=[] 
for nowh in xrange(0,h,h interval): 
for now w in xrange (0,w,w interval): 
b = img[now h:now h+h interval,now w:now wiw interval,0] 
g = img[now h:now h+h interval,now w:now wtw interval,1] 
r= img[now h:now ht+h interval,now w:now wtw interval,2] 
btz=np.mean (b) 
gtz=np.mean (9) 
rtz=np.mean (r) 
alltz.append([btz,gtz,rtz]) 
result alltz=np.array(alltz).T 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k=len (result alltz)/2) 
result alltz =result alltz.reshape (len(result alltz)) 
return result alltz 


接着 是 输入 与 输出 项 初始 化 。 代 码 如 下 : 


#x 和 ad 样本 初始 化 
train x =[] 
d=[] 

sp_9=[] 


sp_d.append([0,0,1]) 
sp_d.append([0,1,0]) 
sp_d.append([1,0,0]) 
# 读 取 图 片 
for ii in xrange(1,4): 

for jj in xrange(1,4): 
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fn='p'+str (ii)+'— 


pictz=readpic (fn) 


Estr( Ft" 


train x.append (pictz) 
d.append(sp dl[lii-1]) 


myinput=np.array (train x) 
mytarget=np.array (d) 


BDg” 


下 面 来 看 看 训练 效果 。 误 差 曲线 如 图 9-14 所 示 。 


程序 运行 后 ， 识 别 效果 如 下 : 

训练 神经 网 络 完毕 

对 样本 进行 测试 

lls ls 工 Zi Br Br Br Bi 

进行 仿真 

===ptest3 .png=== 

[[ 0.96680714 0.00471284 -0.04523491]] 
[3 

===Ptestl1 .png=== 

[[ 0.10858063 -0.00820875 0.95785349]] 
[1] 

===Ptest2 .png=== 

[[ 0.01738297 0.99945777 -0.01017012]] 
[2] 

===ptest21. png=== 

[[ 0.95422417 0.00308943 0.12213834]] 


[3] 

===ptest22 .png=== 
[[-0.26776152 
[2] 


0.99953727 =0.12122857]] 


error (default SSE) 











20 30 和 50 
Epoch number 


图 9-14 误差 曲线 


最 后 几 行 表明 ， 无 法 被 余弦 相似 度 正确 分 类 的 ptest22.png 被 神经 网 络 分 类 成 功 ， 但 
ptest21.png ( 如 图 9-15 所 示 ) 被 错误 分 类 。 因 为 神经 网 络 与 SVM 的 不 同 之 处 在 于 ， 神 经 网 
络 训练 需要 更 多 的 样本 进行 训练 (本 


得 更 好 的 识别 效果 。 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#-*— toding: utf-8 一 * 一 
#code:myhaspl@qq.com 
#9-8.py 


#PCA 加 上 人 工 神经 网 络 识别 图 像 类 型 


import numpy as np 

import pylab as pl 

import neurolab as nl 

import cv2 

import mlpy 

print u' 正 在 处 理 中 ' 

def getresult (simjg): 
jg=[] 
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for j in xrange(0,1len(sirmjg) ) : 
max]jg=-2 
nowii=0 
for i in xrange(0,1len(simjg[0])): 
if simjg[j] [i]>maxjg: 
maxjg=simjg[j] [i] 
nowii=i 
jg.append (len (simjg[0])-nowii) 
return jg 
def readpic (fn): 
# 返 回 图 像 特征 码 
fnimg = cv2.imread (fn) 
img=cv2 .resize (fnimg, (500,400)) 
w=img .shapel[1] 
h=img.shape[0] 
w_ interval=w/20 
h interval=h/10 
alltz=[] 
for now h in xrange(0,h,h interval): 
for now w in xrange (0,w,w_ interval): 
b 
g = img[now h:now ht+h interval,now w:now witw_ interval,1] 


img[now h:now h+h interval,now w:now wtw interval,0] 


r= img[now h:now ht+h interval,now w:now w+tw_ interval,2] 
btz=np.mean (b) 
gtz=np.mean (9) 
rtz=np.mean (r) 
alltz.append([btz,gtz,rtz]) 
result alltz=np.array (alltz).T 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k=len (result alltz) /2) 
result alltz =result alltz.reshape(len(result alltz)) 
return result alltz 


#x 和 ad 样本 初始 化 
train x =[] 
d=[] 

sP_d=[] 


sp_d.append ([0,0,1]) 
sp_d.append([0,1,0]) 
sp_d.append ([1,0,0]) 
# 读 取 图 像 
for ii in xrange(1,4): 
for jj in xrange (1,4): 
fn="'p'+str(ii)+'='+str (jj)+!..png' 
pictz=readpic (fn) 
train x.append (pictz) 
d.append (sp_d[ii-1]) 
myinput=np.array (train x) 
mytarget=np.array (d) 
mymax=np .max (myinput) 
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netminmax=[] 
for i in xrange(0,1len(myinput[0])): 
netminmax .append([0,mymax]) 


print u'\n 正 在 建立 神经 网 络 ' 


bpnet = nl.net.newff (netminmax, [5, 3]) 


print u'\n 训 练 神经 网 络 中 ..."' 
err = bpnet.train (myinput, mytarget, epochs=800, show=5, goal=0.2) 
if err[len (err)-1]>0.4: 
print u'\n 训 练 神经 网 络 失败 ...\n' 
else: 
print u'\n 训 练 神经 网 络 完毕 ' 
pl.subplot (111) 
pl.plot (err) 
pl.xlabel ('Epoch number') 
pl.ylabel('error (default SSE)') 
print u" 对 样本 进行 测试 " 
simd= bpnet.sim(myinput) 
mysimd=getresult (simd) 
print mysimd 
print u" 进 行 仿真 " 
testpictz=np.array([readpic('ptest3.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult (simtest) 
print "===ptest3.png===" 
print simtest 
print mysimtest 
testpictz=np.array([readpic('ptestl.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult (simtest) 
print "===ptestl]1 .png===" 
print simtest 
print mysimtest 
testpictz=np.array([readpic('ptest2.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult (simtest) 
print "===ptest2.png===" 
print simtest 
print mysimtest 
testpictz=np.array([readpic('ptest21 .png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult (simtest) 
print "===ptest21 .png===" 
print simtest 
Print mysimtest 
testpictz=np.array([readpic('ptest22.png')]) 
simtest=bpnet.sim(testpictz) 
mysimtest=getresult (simtest) 
print "===ptest22 .png===" 
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print simtest 
print mysimtest 
pl.show() 


9.3.4 基于 SVM 的 图 像 分 类 


在 样本 量 少 的 情况 下 ，SVM 分 类 的 效果 是 最 佳 的 。SVM 算法 相 比 神经 网 络 的 优势 在 
于 : 只 需要 少量 样本 ， 就 能 达到 较 高 的 识别 精度 。 

1. 算法 描述 

SVM 图 像 分 类 算法 首先 通过 PCA 技术 提取 样本 图 像 特征 码 与 待 分 类 图 像 特征 码 ， 
然后 将 特征 码 送 入 SVM 进行 训练 ， 学 习 每 个 类 别 图 像 的 特征 ， 最 后 将 未 知 类 别 图 像 送 
和 SVM 仿真 测试 ， 自 动 识 别 它 的 类 型 。 步 又 如 下 : 

(1 ) 基于 PCA 技术 提取 每 个 样本 的 图 像 特征 码 。 

(2 ) 根据 样本 特征 码 生成 输入 项 ， 根 据 样本 所 属 类 别 生 成 对 应 的 输出 项 。 

(3 ) 将 输入 与 输出 项 送 入 SVM 训练 。 

(4) 基于 PCA 技术 生成 待 分 类 图 像 的 特征 码 。 

(5 ) 将 待 分 类 图 像 的 特征 码 送 入 SVM 仿真 测试 ， 根据 SVM 输出 项 判断 其 所 属 类 别 。 

其 中 ，SVM 的 输出 目标 可 以 直接 使 用 类 别 序号 (在 本 例 中 为 数字 1 一 3 )。 


2. Python 实现 


(1) 输入 与 输出 项 的 初始 化 。 代 码 如 下 : 
#x 和 a 样本 初始 化 


train x =[] 
d=[] 
# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
for ii in xrange(l,picflag+1): 
smp_x=[] 
mytz=np.zeros((3,w fg*h fg)) 
for jj in xrange(l1,4): 
fn="p'+str (ii)+'='+str (jj)+"' .png" 
tmptz=readpic (fn) 
train x.append (tmptz.tolist()) 
d.append (ii) 


(2 ) SVM 训练 与 仿真 训练 。 代 码 如 下 : 

x=np.array (train x) 

y=np.array (d) 

svm = mlpy.LibSvm(svm type='c svce', kernel type='poly',gamma=50) 
svm.learn (x, y) 

print svm.pred (x) 


(3 ) 识别 效果 。 如 下 所 示 : 


正在 处 理 中 
[ 1s Ts ds 9 
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ptest3.png 属 于 第 3 类 
ptest1.png 属 于 第 1 类 
Ptest2.png 属 于 第 2 类 
ptest21.png 属 于 第 2 类 
ptest22.png 属 于 第 2 类 


相对 神经 网 络 而 言 ， 在 每 个 类 别 仅 有 3 个 样本 的 情况 下 ， 所 有 的 测试 图 像 得 到 了 正确 的 
分 类 。 
以 下 是 完整 的 代码 : 


#!/usr/bin/env Python 
#=*~— coding: utf-8 =*= 
#code:myhaspl@qgq.com 
#9-9.py 
#PCR 加 上 SVM 识别 图 像 类 型 
import numpy as np 
import cv2 
import mlpy 
print u' 正 在 处 理 中 ' 
w_fg=10 
h_fg=5 
picflag=3 
def readpic (fn) : 
# 返 回 图 像 特 征 码 
fnimg = cv2.imread (fn) 
img=cvV2 .resize (fnimg, (400,200)) 
w=img.shape[1] 
h=img.shape[0] 
w_interval=w/w_fg 
h_interval=h/h fg 
alltz=[] 
for now h in xrange(0,h,h interval): 
for now w in xrange (0,w,w_ interval): 
b = img[now h:now h+h interval,now w:now wtw interval,0] 
g = img[now h:now ht+h interval,now w:now wtw interval,1] 
r= img[lnow h:now h+h interval,now w:now wtw interval,2] 
btz=np .mean (b) 
gtz=np.mean (9) 
rtz=np.mean (r) 
alltz.append( [btz,gtz,rtz]) 
result alltz=np.array(alltz).T 
pca = mlpy.PCA() 
pca.learn(result alltz) 
result alltz = pca.transform(result alltz, k=len(result alltz)/2) 
result alltz =result alltz.reshape(len(result alltz)) 
return result alltz 


#x 和 d 样 本 初始 化 
train x =[] 
d=[] 


# 读 取 图 像 ， 提 取 每 类 图 像 的 特征 
wwaibbt.com DDOD00000 


第 9 章 


for ii in xrange(l1,picflag+1): 
smp_x=[] 
mytz=np.zeros((3,w_ fg*h fg)) 
for jj in xrange(1l;4): 
fn='p'+str (ii)+'-'+str (jj)+' .png' 
tmptz=readpic (fn) 
train x.append (tmptz.tolist()) 
d.append (ii) 
x=np.array (train x) 
y=np.array (d) 
svm = mlpy.LibSvm(svm type='c svc', kernel type='poly',gamma=50) 
svm.learn (x, y) 
print svm.pred(x) 
fn='ptest3.png' 
testtz=np.array (readpic (fn)) 
nowi=svm.pred (testtz) 
print u'%s 属 于 第 %d 类 '% (fn,nowi) 
fn='ptestl .png' 
testtz=np.array (readpic (fn)) 
nowi=svm.pred (testtz) 
print u'%s 属 于 第 $d 类 '% (fn, nowi) 
fn='ptest2.png' 
testtz=np.array (readpic (fn)) 
nowi=svm.pred (testtz) 
print u'%s 属 于 第 8d 类 '% (fn, nowi) 
fn='ptest21 .png' 
testtz=np.array (readpic (fn)) 
nowissvm.pred (testtz) 
print u'%s 属 于 第 8d 类 '%$ (fn,nowi) 
fn='ptest22.png' 
testtz=np.array (readpic (fn)) 
nowi=svm.pred (testtz) 
print u'%s 属 于 第 %d 类 '% (fn, nowi) 


9.4 人 脸 辩 识 


图 像 识 别 案 例 9 291 


生物 特征 识别 技术 ， 是 指 通过 生物 体 ( 一 般 特 指 人 ) 本 身 的 生物 特征 来 区 分 生物 体 个 


体 。 生 物 特征 识别 技术 所 研究 的 相关 特征 包括 脸 、 指 纹 、 手 掌 纹 、 虹 膜 、 视 网 膜 、 声 音 、 体 
形 、 个 人 习惯 等 。 相 应 的 识别 技术 有 人 脸 识 别 、 指 纹 识 别 、 掌 纹 识别 、 虹 膜 识 别 、 视 网 膜 识 
别 、 语 音 识 别 、 体 形 识别 、 键 盘 敲 击 识别 、 签 字 识 别 等 。 


人 脸 识别 属于 生物 特征 识别 技术 中 的 一 种 ， 指 利用 分 析 比 较 人 脸 视觉 特征 信息 进行 身份 


鉴别 的 计算 机 技术 。 
9.4.1 人 脸 定位 


在 一 张 图 像 或 一 段 视频 中 定位 人 脸 的 技术 目前 已 比较 成 熟 ， 可 调用 OpenCV 提供 的 接口 
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来 完成 。 相 应 的 Python 代码 如 下 : 


def findface (image) : 
# 人 脸 识别 ， 获 取 脸 在 图 像 中 的 坐标 
grayscale = CV.CreateImage ( (image.width, image.height), 8, 1) 
CVv.CvtColor (image, grayscale, cv.CV BGR2GRAY) 
Cascade = 
cv.Load (OPCV_ PATH+"/data/haarcascades/haarcascade frontalface alt tree.xml") 


rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.015, 
2,cV.CV HAAR DO CANNY PRUNING, (10,10)) 
result = [] 





for r in Eeets 


result.append([(r[0] [0], r[0] [1]), (r[0] [0]+r[0] [2], r[0] [1]+r[0] [3])]) 
return result 


上 面 算法 的 原理 是 : 首先 将 图 像 转换 为 
灰 度 图 ， 然 后 加 载 OpenCV 提供 的 面部 特 
征 库 ， 接 着 调用 HaarDetectObjects 找到 人 
脸 的 位 置 ， 最 后 将 定位 的 结果 赋值 给 result 
数据 并 返回 。 

下 面 以 如 图 9-16 所 示 的 《机 械 公 敌 》 
的 电影 海报 为 例 来 应 用 算法 。 

实现 该 算法 的 完整 Python 代码 如 下 : 


#!/usr/bin/env Python 
#—*= coding: utf-8 一 二 一 
#code:myhaspl@qq.com 
#9-10.py 

# 人 脸 定位 


import cv2 
import cv2.cv as cv 
print lo6ading ..." 





# 请 在 本 程序 运行 前 检查 的 目录 是 否 为 下 
de eT 六 图 9-16 《机 械 公敌 》 的 电影 海报 


OPCV_PRATH=T"E:/soft/c++/opencv" 


def findface (image) : 
# 人 脸 识 别 ， 获 取 脸 在 图 像 中 的 坐标 
grayscale = CV.CreateImage ( (image.width, image.height), 8, 1) 
Cv.CvtColor (image, grayscale, cv.CV BGR2GRAY) 
cascade = cv.Load(OPCV PATH+"/data/haarcascades/haarcascade frontalface alt_ 
tree.xml") 


rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.015, 
2,cVv.CV HAAR DO CANNY PRUNING, (10,10)) 





result = [] 
for r in rect: 


wwaibbt.com DOD00000 


第 9 章 ”图 像 识别 案例 # 293 


result.append([(r[0] [0], r[0][1]), (rxr[0] [0]+r[0] [2], r{[0] [1]+r[0] [3])]) 
return result 


fn='facesb.png' 
my_img=cv.LoadImage (fn) 


# 获 取 脸 在 图 像 中 的 坐标 
faceresult=findface (my_ img) 
myimg=cv2.imread (fn) 
for ii in xrange (0,1len (faceresult) ) : 
cv2.rectangle (myimg, faceresult 
[ii] [0], faceresult[ii] [1], (0;,0,250)) 


cv2.namedWindow('img"') 
cv2.imshow('img', myimg) 
CV2 .waitKey () 
Cv2.destroyAllWindows () 


程序 运行 效果 如 图 9-17 所 示 。 不 但 所 
有 人 类 的 脸 被 定位 ， 而 且 机 器 人 的 脸 也 被 
成 功 找 到 。 


9.4.2 ”人 脸 辨 识 
在 讲述 本 节 内 容 之 前 ， 先 明确 一 下 本 节 讲述 的 算法 需要 完成 的 任务 : 通过 某 人 的 一 张 昭 
片 ， 在 他 与 别人 的 合影 中 找到 他 。 


1. 算法 描述 

完成 该 任务 的 人 脸 辨识 算法 主要 过 程 是 : 

( 1) 读 取 两 张 图 像 ， 生 成 图 像 矩 阵 。 

(2 ) 以 两 个 图 像 矩 阵 为 基础 ， 调 用 OpenCyV 的 相关 函数 完成 人 脸 定位 。 

(3 ) 读 取 两 张 图 像 的 人 脸 区 域 ， 生 成 人 脸 图 像 算 了 泗 ， 并 将 人 脸 和 矩阵 转换 为 灰 度 图 。 
(4 ) 比较 分 析 人 脸 图 像 矩 阵 ， 找 到 最 相近 的 人 脸 。 


2. 欧 氏 距离 算法 

在 进行 人 脸 识别 时 ， 可 使 用 标准 欧 氏 距离 算法 ， 该 算法 不 仅 简单 ， 而 且 实用 。 下 面 以 一 
张 Microsoft 公司 员工 与 比尔 。 盖 茨 的 合影 和 在 比尔 。 盖 茨 办 公 室 中 他 与 某 人 的 合影 为 例 讲 
解 该 算法 。 

算法 基本 原理 是 : 将 标准 欧 氏 距离 算法 作为 比较 分 析 人 脸 图 像 矩 阵 方法 。 首 先 ， 将 两 个 
人 脸 图 像 调整 为 指定 大 小 ; 接着 ， 用 所 包含 像素 的 三 元 色 数 值 组 成 特征 组 ， 然 后 将 特征 组 映 
射 为 高 维 空间 的 某 个 点 〈 在 此 称 之 为 特征 点 ) ; 最 后 ， 计 算 两 个 人 脸 图 像 的 特征 点 映射 到 高 
维 空间 后 的 距离 ， 以 欧 氏 距离 最 小 者 为 最 匹配 的 人 脸 。 具 体 步骤 如 下 。 

(1 ) 调用 OpenCV 相关 函数 定位 人 脸 。 代 码 如 下 : 





惑 


图 9-17 人 脸 定位 
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cv2.imshow('img', myimg) 
Cv2 .waitKey () 
cv2.destroyAllWindows () 


(2 ) 计算 欧 氏 距离 。 代 码 如 下 : 


def get distance (img,findimg): 
newsize=(img.shape[1],img.shape[0]) 
fimg=cv2.resize (findimg,newsize) 
my_img=cv2.cvtColor (img, cv2 .COLOR BGR2GRAY) 
my_fimg=cv2.cvtColor (fimg, cv2.COLOR BGR2GRAY) 
return get _ EuclideanDistance (my img,my fimg) 


(3 ) 找到 最 匹配 的 人 脸 。 代 码 如 下 : 


myimg=cv2.imread (fn) 
myimgt=cv2.imread (fnt) 


#IT 精 英 比尔 。 盖 菊 
isfacel=get distance (myimg [faceresult[0] [0] [0] :faceresult[0] [1] [0] ,faceresult[0] 
[0] [1] :faceresult[0] [1] [1],:],myimgt[facet result[0] [0] [0] :facet result[0] [1] 
[0],facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
isface2=get distance (myimg[faceresult[1] [0] [0] :faceresult[1] [1] [0],faceresult[1] 
[0] [1] :faceresult[1] [1] [1],:],myimgt[facet result[0] [0] [0]:facet result[0][1] 
[0] ,facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
if isfacel<isface2: 
cv2.rectangle (myimg, faceresult[0] [0], faceresult[0] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 
else: 
cv2.rectangle (myimg, faceresult[1] [0], faceresult[1] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 


完整 的 代码 如 下 : 


#!/usr/bin/env python 
#-*—- coding: utf-8 -*- 
#code:myhaspl@qq.com 
#9-11.py 

# 标 准 欧 氏 距离 实现 的 人 脸 识别 


import cv2 

import numpy as np 

import cv2.cv as cv 

print ‘'loading ...!' 

# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH 值 
OPCV_PATH=r"F:/soft/c+t+/opencv" 


def get EuclideanDistance (x,y): 
myx=np.array (x) 
myy=np.array (y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy)))*np.var (myx-myy) 
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def get distance (img,findimg): 
newsize= (img.shape[1],img.shape[0]) 
fimg=cv2.resize (findimg,newsize) 
my_img=cv2.cvtColor (img, cv2 .COLOR BGR2GRAY) 
my_fimg=cv2.cvtColor (fimg, cv2.COLOR BGR2GRAY) 
return get EuclideanDistance (my img,my_ fimg) 


def findface (image): 

# 人 脸 识 别 ， 获 取 脸 在 图 像 中 的 坐标 

grayscale = cv.CreateImage((image.width, image.height), 8, 1) 

Cv.CvtColor (image, grayscale, cv.CV BGR2GRAY) 

cascade = cv.Load(OPCV PATH+"/data/haarcascades/haarcascade frontalface alt_ 
tree.xml") 

rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.1, 
2,cVv.CV_HAAR DO CANNY PRUNING, (10,10)) 


result = [] 
for r in rect: 

result.append([(r[0] [0], r[0] [1]), (r[0] [0]+r[0] [2], r[0] [1]+r[0] [3])]) 
return result 


fn='billalll.png' 

fnt= 'billtest.png' 
my_img=cv .LoadImage (fn) 
face test=cv.LoadImage (fnt) 


# 获 取 人 脸 在 图 像 中 的 坐标 
faceresult=findface (my_img) 
facet result=findface (face test) 


myimg=cv2 .imread (fn) 
myimgt=cv2.imread (fnt) 


#IT 精 英 比尔 。 盖 茨 
isfacel=get distance (myimg[faceresult[0] [0] [0] :faceresult[0][1][0],faceresult[0] 
[0] [1] :faceresult[0] [1] [1],:],myimgt [facet result[0] [0] [0] :facet result[0] [1] 
[0],facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
isface2=get distance (myimg[faceresult[1] [0] [0] :faceresult[1] [1] [0],faceresult([1] 
[0] [1] :faceresult[1] [1] [1],:],myimgt [facet result[0] [0] [0] :facet result[0] [1] 
[0],facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
if isfacel<isface2: 
cv2.rectangle (myimg, faceresult[0] [0], faceresult[0] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 
else: 
cv2.rectangle (myimg, faceresult[1] [0], faceresult[1] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 


cv2.namedWindow('img') 


cv2.imshow('img', myimg) 
cv2.namedWindow('imgt') 
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cv2.imshow('imgt', myimgt) 
cv2 .waitKey () 
Cv2.destroyAllWindows () 


运行 算法 程序 后 ， 成 功 地 在 员工 合影 中 找到 比尔 。 盖 蒋 。 运 行 本 书 资源 包 中 的 上 述 代 
码 ， 可 验证 人 脸 识别 效果 。 


3. 改进 的 欧 氏 距离 算法 

前 面 描述 的 图 像 特 征 码 提取 算法 仅仅 是 基于 像素 点 的 三 元 色 数 值 的 ， 有 时 候 ， 图 像 少 量 
的 像素 点 差异 可 能 干扰 识别 结果 。 人 脸 是 一 个 整体 ， 可 能 因为 人 脸 的 某 个 部 位 ( 如 文身 、 饰 
品 等 )、 人 脸 的 不 同 动作 和 不 同 角度 (如 正面 人 脸 、 斜 侧面 人 脸 以 及 抬头 或 低头 等 ) 造成 少 
数 像素 点 之 间 的 差异 过 大 ， 使 欧式 距离 失真 (被 放大 或 缩小 )。 如 果 从 以 下 两 个 方面 改进 上 
述 人 脸 辩 识 算法 ， 可 以 使 其 识别 效果 更 好 。 

口 将 人 脸 图 像 大 小 设置 为 适当 的 数值 (通常 来 说 比较 小 )， 这 样 更 能 突出 人 脸 的 特征 ， 

而 略 去 很 多 干扰 项 。 此 外 ， 提 取 原 始 特征 组 后 ， 使 用 PCA 降 维 技术 对 原始 特征 组 进 
行进 一 步 加 工 ， 生 成 最 终 的 特征 组 ， 从 而 更 好 地 表征 人 脸 。 

口 在 标准 欧 氏 距离 的 基础 上 乘 以 权重 。 有 两 种 计算 方式 : 第 一 ， 每 区 域 像 素 设置 不 同 

的 权重 ,因为 人 脸 的 不 同 区 域 表 征 人 脸 的 能 力 不 同 ; 第 二 ,设置 整体 权重 , 使 人 脸 
图 像 矩 阵 的 差分 值 均匀 化 。 

本 节 使 用 第 二 种 方式 ， 加 工 后 的 欧 氏 距离 不 但 能 更 好 地 表征 人 脸 整 体 差 异 ， 而 且 不 会 因 
为 人 脸 中 某 些 部 分 过 大 或 过 小 的 差异 影响 整体 识别 效果 。 

在 讲解 上 述 算法 之 前 ， 先 讲解 一 下 统计 学 的 变异 系数 。 标 准 差 和 方差 均 可 反映 数据 离散 
程度 ， 但 反映 的 是 离散 绝对 值 。 在 衡量 数据 分 布 离散 程度 时 ， 不 仅 要 考虑 变量 值 离散 程度 ， 
还 要 考虑 变量 值 平均 水 平 。 变 异 系数 同时 考虑 了 这 两 个 因素 。 

变异 系数 ， 又 称 离散 系数 ， 是 概率 分 布 离散 程度 的 一 个 归 一 化 量度 。 它 定义 为 标准 差 o 
与 平均 值 4 之 比 : 

C= 
7 

注意 ， 变 异 系数 只 在 平均 值 不 为 零 时 有 定义 ， 人 脸 差分 矩阵 正好 满足 这 个 条 件 。 

变异 系数 可 以 消除 因为 平均 数 不 同 在 变异 程度 比较 中 产生 的 干扰 。 变 异 系数 越 小 ， 数 据 
离 平均 值 的 偏离 程度 越 小 ; 反之 ， 变 异 系数 越 大 ， 数 据 离 平均 值 的 偏离 程度 越 大 。 

这 里 首先 将 变异 系数 改进 ， 将 标准 差 用 方差 代替 ; 然后 将 改进 的 变异 系数 的 倒数 作为 计 
算 欧 氏 距离 的 调节 系数 (这样 做 的 效果 是 : 将 偏离 程度 较 大 的 数据 赋予 较 小 的 权重 ,将 偏离 
程度 较 小 的 数据 赋予 较 大 的 权重 中 ) ; 最 后 将 标准 欧 氏 距离 乘 以 调节 权重 ,从 而 实现 差异 平 
均 化 ， 让 改进 后 的 欧 氏 和 矩阵 更 好 地 表征 人 脸 整 体 差异 。 通 过 对 多 个 样本 的 实验 来 看 ， 这 种 方 
式 的 效果 比较 理想 。 

下 面 以 找到 威 尔 。 史 密斯 为 例 来 讲解 改进 的 欧 氏 距离 算法 。 在 《机 械 公 敌 》 中 ， 威 
尔 。 史 密斯 饰演 警 探 戴尔 史 普 纳 ， 布 丽 姬 称 娜 饰演 苏 珊 卡尔 文博 士 。 以 威 尔 。 史 密斯 出 演 的 
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《我 是 传奇 》 的 电影 海报 ( 如 图 9-18 所 示 ) 中 的 图 像 为 蓝本 ， 在 他 与 布 丽 姬 穆 娜 合影 的 《机 
械 公敌 》 海 报 〈 如 图 9-19 和 图 9-17 所 示 ) 中 找到 他 。 





图 9-18 《我 是 传奇 》 海 报 图 9-19 《机 械 公 敌 》 海 报 
经 过 实验 ， 发 现 标准 的 欧 氏 距 算法 无 法 完成 这 个 任务 ， 需 要 使 用 刚刚 描述 的 改进 后 的 欧 
氏 距 离 算法 。 


(1) 在 PCA 降 维 后 ,计算 基于 整体 权重 的 欧 氏 距离 。 代 码 如 下 : 


def get distance (img,findimg): 
newsize=(21,21) 
fimg=cv2.resize (findimg,newsize) 
img=cV2 .resize (img,newsize) 
my_img=cv2.cvtColor (img, cv2.COLOR BGR2GRAY) 
my_fimg=cv2.cvtColor (fimg, cv2 .COLOR BGR2GRAY) 
pcaimg = mlpy.PCA() 
pcaimg.learn (my_img) 
pca img = pcaimg.transform(my img, k=1) 
pca img=pcaimg.transform inv (pca img) 
pcafimg = mlpy.PCA() 
pcafimg.learn (my_fimg) 
pca fimg = pcaimg.transform(my fimg, k=1) 
pca fimg= pcafimg.transform inv(pca fimg) 
return get EuclideanDistance (pca img,pca fimg) 


(2 ) 根据 欧 氏 距离 决定 哪个 人 脸 更 匹配 。 代 码 如 下 : 
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my_img=cv.LoadImage (fn2) 
myimg=cv2.imread (fn2) 
# 获 取 脸 在 图 像 中 的 坐标 


faceresult=findface (my_img) 


# 找 到 威 尔 。 史 密斯 
isfacel=get distance (myimg[faceresult[0] [0] [0] :faceresult [0] [1] [0],faceresult[0] 
[0] [1] :faceresult[0] [1] [1],:],myimgt[facet result{[0] [0] [0] :facet result[0] [1] 
[0],facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
isface2=get distance (myimg[faceresult[1] [0] [0] :faceresult[1] [1] [0], faceresult[1] 
[0] [1] :faceresult[1] [1] [1],:],myimgt[facet result[0] [0] [0] :facet result[0] [1] 
[0],facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
if isfacel<isface2: 
cv2.rectangle (myimg, faceresult[0] [0], faceresult[0] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 
else: 
cv2.rectangle (myimg, faceresult[1] [0], faceresult[1] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 


完整 的 代码 如 下 : 


#!/usr/bin/env python 
t-*~ Oding: Utf-8 一- 
#code:myhaspl@qq.com 
#9-12.py 
#Pcb+ 改 进 变异 系数 人 脸 识别 


import cv2 
import numpy as np 
import cv2.cv as cv 
import mlpy 
print "loading ss" 
# 请 在 本 程序 运行 前 检查 opencv 的 目录 是 否 为 下 面 的 OPCV_PATH 值 
OPCV_PATH=r"F:/soft/c+t+/opencv" 
def get EuclideanDistance (x,y): 
myx=np.array (x) 
myy=np.array (y) 
return np.sqrt (np.sum( (myx-myy)* (myx-myy)))/ (np.var (myx-myy) /abs (np.mean (myx- 
myy) ) ) 


def get distance (img,findimg): 
newsize=(21,21) 
fimg=cv2.resize (findimg,newsize) 
img=cv2 .resize (img,newsize) 
my_img=cv2.cvtColor (img, cv2.COLOR BGR2GRAY) 
my_fimg=cv2.cvtColor (fimg, cv2 .COLOR BGR2GRAY) 
pcaimg = mlpy.PCA() 
pcaimg.learn (my_img) 
pca img = pcaimg.transform(my img, k=1) 
pca_img=pcaimg.transform invl(pca img) 
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pcafimg = mlpy.PCA() 

pcafimg.learn (my_fimg) 

pca fimg = pcaimg.transform(my fimg, k=1) 

pca fimg= pcafimg.transform invl(pca fimg) 
return get EuclideanDistance(pca img,pca fimg) 


def findface (image): 

# 人 脸 识 别 ， 获 取 脸 在 图 像 中 的 坐标 

grayscale = cv.CreateImage ((image.width, image.height), 8, 1) 

cv.CvtColor (image, grayscale, cv.CV BGR2GRAY) 

cascade = cv.Load(OPCV PATH+"/data/haarcascades/haarcascade frontalface alt_ 
tree.xml") 

rect = cv.HaarDetectObjects (grayscale, cascade, cv.CreateMemStorage(), 1.1, 
2,cv.CV_ HAAR DO CANNY PRUNING, (10,10)) 

result = [] 

for r in rect: 


result.append([(r[0] [0], r[0][1]), (r[0] [0]+r[0] [2], r[0] [1]+r[0] [3]1)]) 


return result 
fnl='jjgdall .png' 
fn2='facesb.png' 
fnt='jjgdtest .png' 
face test=cv.LoadImage (fnt) 
# 获 取 人 脸 在 图 像 中 的 坐标 
facet_result=findface (face_test) 
myimgt=cv2.imread (fnt) 
my_img=cv.LoadImage (fn1) 
myimg=cv2.imread (fnl) 
# 获 取 人 脸 在 图 像 中 的 坐标 
faceresult=findface (my_img) 
# 找 到 威 尔 。 史 密斯 
isfacel=get distance (myimg[faceresult[0] [0] [0] :faceresult[0] [1][0],faceresult[0] 
[0] [1] :faceresult[0][1][1]，:],myimgt[facet_result[0][0][0]:facet_result[0][1] 
[0] ,facet result[0] [0] [1]:facet result[0] [1] [1],:]) 
isface2=get_distance (myimg[faceresult[1][0][0]:faceresult[1][1][0],faceresult[1] 
[0] [1]:faceresult[1][1][1],:],myimgt[facet_result[0][0][0]:facet_result[0o]l[1l] 
[0] ,facet_result[0][0] [1] :facet result[0] [1] [1],:]) 
if isfacel<isface2: 
cv2.rectangle (myimg, faceresult[0] [0], faceresult[0] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 
else: 
cv2.rectangle (myimg, faceresult[1] [0], faceresult[1] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 


cv2.namedWindow('imgl') 
cv2.imshow('imgl', myimg) 
my_img=cv.LoadImage (fn2) 
myimg=cv2.imread (fn2) 

# 获 取 人 脸 在 图 像 中 的 坐标 


faceresult=findface (my_img) 
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# 找 到 威 尔 。 史 密斯 
isfacel=get distance (myimg[faceresult[0] [0] [0] :faceresult[0] [1] [0], faceresult[0] 
[0] [1] :faceresult[0] [1] [1],:],myimgt[facet result[0] [0] [0] :facet result[0][{1] 
[0] ,facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
isface2=get distance (myimg[faceresult[1] [0] [0] :faceresult[1] [1] [0], faceresult[1] 
[0] [I] :faceresult[1] [1] [1],:],myimgt[facet result[0] [0] [0] :facet result[0][1] 
[0],facet result[0] [0] [1] :facet result[0] [1] [1],:]) 
if isfacel<isface2: 
cv2.rectangle (myimg, faceresult[0] [0], faceresult[0] [1], (255,0,255)) 
cv2.rectangle (myimgt, facet result[0] [0], facet result[0] [1], (255,0,255)) 
else: 
cv2.rectangle (myimg, faceresult[1] [0], faceresult[1] [1], (255,0,255)) 
cv2.rectangle (myimgt, 
facet result[0] [0], facet result[0] 
[1 (255,0,.255)) 


cv2.namedWindow ('img2') 
cv2.imshow('img2', myimg) 
cv2.namedWindow('imgt') 
cv2.imshow('imgt', myimgt) 
cv2.waitKey () 
cv2.destroyAllWindows () 


运行 上 述 程序 后 ， 效 果 良 好 ， 在 
图 9-20 中 ， 以 左 图 中 的 史密斯 的 脸 为 
依据 ， 成 功 地 在 右边 两 个 图 像 中 找到 
史密斯 ( 方 框 中 标示 了 人 脸 )。 





en 


图 9-20 “人 脸 匹配 


9.5 ”手写 数字 识别 


手写 数字 识别 就 是 指 用 计算 机 读 取 含有 手写 数字 的 图 像 ， 然 后 将 图 像 转 换 为 用 计算 机 文 
字 表 示 的 对 应 数字 。SVM 在 文本 分 类 、 手 写 文字 识别 、 图 像 分 类 、 生 物 序列 分 析 等 实际 应 
用 中 表现 出 了 非常 好 的 性 能 。 下 面 应 用 SVM 算法 对 1 一 9 的 手写 数字 图 像 进行 识别 。 


9.5.1 手写 数字 识别 算法 
(1 ) 为 每 个 数字 各 准备 4 个 样本 图 像 ， 如 图 9-21 所 示 。 


本 
0 | /| 1| | 2! 2 2 2 3 3 
test 1-Lpng 1-2.png 3.png 1-4.png 2-Lpng 2-2.png 2-3.png 2-4.png 3-Lpng 3-2.png 
了 Rs a 站 | #4! 5 二 全 全 下 二 催生 
3-3.png 3-4png lipng #-2png 4-3png 44png 5-Lpng 5-2.png 5-3.png 5-4.png 6-1.png 
b| 8 b 了 | 7| po 9) aug % 


62png S63png G4png Tipng 7-2Png 7-3png ThApng Blpng 1 和 2 ng | Bpng Bh4png 


图 9-21 数字 样本 图 像 
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(2 ) 将 图 像 大 小 调整 为 8 x 8 的 尺寸 ， 读 取样 本 图 像 。 

虽然 较 大 的 图 像 比较 小 的 图 像 尺寸 更 清晰 ， 但 并 不 意味 着 它 能 更 好 地 表现 图 像 的 主要 特 
征 。 不 过 ， 由 于 手写 字体 不 规范 ， 因 此 较 大 的 尺寸 会 更 清楚 地 表征 字体 的 不 规范 细节 。 当 图 
像 尺寸 调整 得 更 小 时 ， 图 像 矩 阵 规 模 变 小 ， 能 表现 图 像 细节 的 能 力 减 弱 ， 大 部 分 字体 的 不 规 
范 细节 会 消失 ， 但 这 样 一 来 ， 数 字 的 主要 特征 就 更 加 突出 了 ， 可 尽 可 能 消除 手写 字体 不 规范 
带 来 的 影响 。 比 如 ， 如 图 9-22 所 示 的 数字 3， 从 左边 起 第 
一 张 是 40 x 40 的 尺寸 ， 第 二 张 是 20 x 20 的 尺寸 ， 而 第 三 
张 则 是 8 x 8 的 尺寸 。 我 们 在 用 肉眼 观察 时 ， 可 以 看 到 ， 随 3 己 
着 尺寸 越 来 越 小 ， 图 像 越 来 越 模糊 ， 不 规范 的 细节 也 慢 慢 本 
消失 。 当 计算 机 使 用 8 x 8 的 尺寸 来 分 析 数 字 3 的 图 像 时 ， 图 9-22 不 同 尺 寸 的 数字 3 图 像 
提取 的 特征 就 能 更 好 地 表达 图 像 。 

在 8x8 (实际 是 8x8x3， 因 为 调用 OpenCYV 库 读 取 图 像 后 ,会 多 出 一 维 空间 ， 多 出 
的 这 维 空间 分 别 放 置 了 红 、 绿 、 蓝 三 元 色 数 值 ) 的 图 像 矩 阵 中 ， 当 色彩 为 黑色 ( 数字 字体 的 
颜色 ) 时 ， 表 示 该 像素 的 特征 码 为 1， 否则 为 0， 形成 的 像素 特征 码 组 成 了 样本 图 像 特征 组 。 

现在 将 每 个 数字 类 别 的 样本 图 像 特 征 组 作为 输入 ， 样 本 对 应 的 数字 值 作为 输出 ， 用 
SVM 进行 训练 。 

(3 ) 读 取 未 知 样本 图 像 ， 将 未 知 图 像 调整 为 8 x 8 的 尺寸 ， 提 取 图 像 特征 码 ， 生 成 图 像 
特征 组 。 

(4 ) 将 未 知 样本 图 像 特征 组 送 入 SVM 仿真 测试 ， 仿 真 输出 值 为 根据 图 像 识 别 出 的 数字 。 


9.5.2 ”算法 的 Python 实现 
现在 根据 上 述 步 又 一 步 步 来 实现 。 首 先 ， 提 取 图 像 特征 ， 代 码 如 下 : 


def getnumc (fn): 
''' 返 回 数字 特征 '"， 
fnimg = cv2.imread (fn) 
img=cv2 .resize (fnimg, (8,8)) 
alltz=[] 


for now h in xrange(0,8) : 
xtz=[] 
for now w in xrange(0,8): 
b = img[now_ h,now w,0] 
g = img[now h,now w,1] 
z = img[now_ h,now w,2] 
btz=255-b 
gtz=255-g 
rtz=255-r 
i£ btz>0 Or gtz>0 or rtz30: 
nowtz=1 
else: 
nowtz=0 
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xtz.append (nowtz) 
alltz+=xtz 
return alltz 


然后 训练 SVM 并 仿真 输出 。 代 码 如 下 : 


x=np.array (x) 
y=np.array (y) 
svm = mlpy.LibSvm(svm type='c svc', kernel type='poly',gamma=10) 
svm.learn (x, y) 

print svm.pred (x) 


完整 的 Python 代码 如 下 : 


#!/usr/bin/env python 
#-*= coding: utf-8 一 * 一 
#code:myhaspl@qq.com 
#9-13.py 


2 


import numpy as np 
import mlpy 

import cv2 

print "loading 二 at 


def getnumc (fn): 
''' 返 回 数字 特征 ''，' 
fnimg = cv2.imread (fn) 
img=cv2 .resize (fnimg, (8,8)) 
alltz=[] 
for now h in xrange(0,8): 
xtz=[] 
for now w in xrange(0,8): 
b = img[now_ h,now w,0] 
g = img[now h,now w,1] 
r= img[now h,now _w,2] 
btz=255-b 
gtz=255-g 
rtz=255-r 
if btz>0 or gtz>0 or rtz>0: 
nowtz=1 
else: 
nowtz=0 
xtz.append (nowtz) 
alltz+=xtz 
return alltz 


# 读 取样 本 数字 
x=[] 
日 
for numi in Xxrange (1,10) : 
for numi]j in xrange (1 5) : 
fn='nums/'+str (numi)+'-"'+str (numij)+' .png' 
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x.append (getnumc (fn) ) 
Y.append (numi) 


x=np.array (X) 

y=np.array (y) 

svm = mlpy.LibSvm(svm type='c svc', kernel type='poly',gamma=10) 
svm.learn (x, y) 

print svm.pred (x) 


for i114 dn xrange (lL,10}s 
testfn= 'nums/test/'+str (iii)+'-test.png' 
testx=[] 
testx.append (getnumc (testfn)) 
print svm.predl(testx) 


最 后 ， 进 行 仿 真 测试 。 
通过 对 如 图 9-23 所 示 的 未 知 样本 的 仿真 测试 得 知 ， 运 行 效果 不 错 。 


图 9-23 未 知 数字 样本 
运行 效果 如 下 : 


loading  ， 
训练 样本 测试 
0 2 
5 5 bs br Gs Gs Tha Ts Te VT: Be 8 8 8 % 9 
未 知 图 像 测试 
nums/test/1l-test.png: 
nums/test/2-test.png: 
nums/test/3-test.png: 
nums/test/4-test .png: 
nums/test/5-test.png: 
nums/test/6-test .png: 
nums/test/7-test .png: 
nums/test/8-test .png: 
nums/test/9-test .png: 
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使 用 机 器 学 习 算法 对 数字 图 像 加 工 的 目的 是 提取 所 需 的 知识 和 信息 ， 主 要 解决 识别 与 监 
测 、 运 动 分 析 、 场 景 重建 、 图 像 恢 复 等 问题 。 其 算法 过 程 主要 包括 : 图 像 获取 、 预 处 理 、 特 


取 、 加 工分 析 、 提 取 知 识 等 。 
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本 章 首 先 介绍 数字 图 像 的 基础 知识 ， 数 字 图 像 在 计算 机 中 保存 为 二 维 整数 数组 ， 是 二 维 
图 像 用 有 限 数值 像素 的 表示 方式 ， 每 个 像素 对 应 于 二 维 空间 中 一 个 特定 的 位 置 ; 然后 通过 多 
个 案例 的 实战 ， 阐 述 图 像 识 别 算法 的 应 用 ， 包括: 图 像 边缘 算法 、 图 像 匹配 算法 、 人 脸 辨 识 
算法 、 图 像 分 类 算法 、 手 写 数字 识别 等 ， 并 用 Python 编写 了 代码 实现 算法 ， 验 证 了 算法 的 
有 效 性 。 此 外 ,在 讲解 算法 的 同时 ， 剖 析 算 法 应 用 的 SVM、 神经 网 络 、PCB 降 维 、 欧 氏 距 
离 、 余 弦 距 离 等 机 器 学 习 技术 。 

在 本 章 的 案例 实战 中 ， 细 心 的 读者 可 能 会 发 现 ， 图 像样 本 的 质量 影响 了 机 器 学 习 算 法 的 
效果 ，SVM 虽然 基于 小 样本 计算 ， 但 对 样本 的 要 求 仍 然 很 高 ， 同 一 类 别 的 样本 应 保持 适当 
的 差异 ， 分 别 代表 这 个 类 别 中 不 同 特 征 的 图 像 ， 可 见 ， 样 本 的 数量 和 质量 都 很 重要 。 

本 章 为 讲解 方便 ， 使 用 的 样本 数量 都 不 多 ， 每 个 类 别 的 样本 数量 均 在 5 个 以 下 。 在 实际 
应 用 中 ， 用 于 训练 机 器 学 习 的 样本 量 应 为 100 个 以 上 ， 对 于 某 些 特殊 场合 的 应 用 ， 每 个 类 别 
的 样本 应 在 1000 个 以 上 。 


思考 题 


(1) 首先 应 用 欧 氏 距离 算法 计算 图 像 边缘 ， 并 对 多 个 不 同 的 图 像 进 行 实验 ， 观 察 效 
果 ; 然后 将 欧 氏 距 离 算 法 改 为 像素 差分 算法 〈 计 算 像素 数值 的 差分 绝对 值 ) 进行 实验 ， 观 察 
其 效果 。 

(2 ) 以 多 个 图 像 为 实验 对 象 ， 对 其 进行 加 噪声 点 、 变 形 、 放 大 、 缩 小 等 操作 ， 应 用 图 像 
匹配 技术 进行 图 像 匹 配 算法 实验 ， 尝 试 在 图 像 匹 配 算法 中 应 用 PCA 降 维 技术 。 

(3 ) 以 多 个 图 像 进行 更 多 的 人 脸 辨 识 实验 ， 尝 试 应 用 更 多 的 机 器 学 习 算 法 ， 比 如 应 用 
SVM 和 神经 网 络 ， 或 者 对 欧 氏 距离 算法 进行 进一步 改进 ， 对 人 脸 的 不 同 部 位 赋予 不 同 的 权 
重 ， 总 结 各 算法 的 实际 应 用 效果 。 

(4) 实现 从 a 到 z 的 24 个 字母 图 像 的 识别 算法 ， 要 求 识别 未 知 样本 图 像 表 征 的 字母 。 
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文本 分 类 案例 


在 网 络 信息 时 代 ， 全 球 正面 临 着 前 所 未 有 的 信息 爆炸 式 增长 的 挑战 ， 中 文 信息 处 理 也 迎 
来 了 高 速 发 展 。 如 果 拥 有 着 海量 的 中 文 文字 数据 对 数据 知识 的 提取 依旧 停留 在 过 去 简单 查 
询 、 检 索 的 水 平 上 ， 那 么 就 会 导致 所 谓 的 “数据 爆炸 但 知识 贫乏 ”的 现象 。 从 中 文 信息 中 获 
取 知 识 ， 快 速 有 效 地 组 织 和 管理 用 户 所 要 的 信息 是 当前 信息 科学 和 技术 所 面临 的 重要 挑战 。 

数据 挖掘 技术 致力 于 从 海量 数据 中 提取 有 用 的 信息 ， 文 本 分 类 等 文本 挖掘 技术 则 属于 数 
据 挖 气 领 域 中 被 研究 的 热点 。 文 本 挖掘 是 人 工 智能 、 机 器 学 习 、 自 然 语言 处 理 、 数 据 挖掘 及 
相关 自动 文本 处 理 ( 如 信息 抽取 、 信 息 检索 ) 等 领域 中 理论 和 技术 结合 的 产物 。 文 本 分 类 是 
文本 挖掘 领域 的 一 个 重要 分 支 ， 而 且 逐 渐 成 为 一 个 日 益 重 要 的 研究 领域 。 自 动 文本 分 类 则 会 
依据 文本 内 容 ， 由 计算 机 根据 某 种 自动 分 类 算法 把 文本 划分 为 预先 定义 好 的 类 别 ， 它 是 对 复 
杂 类 型 的 数据 进行 挖掘 的 技术 。 


10.1 文本 分 类 概述 


近年 来 ， 随 着 互联 网 的 高 速 发 展 和 大 数据 时 代 的 到 来 ,文本 分 类 等 文本 挖掘 技术 应 用 于 
越 来 越 多 的 领域 。 互 联网 和 大 数据 是 信息 技术 发 展 催生 的 一 对 挛 生 子 。 互 联网 能 够 方便 、 准 
确 地 记录 用 户 数据 ,产生 了 大 量 的 半 结 构 化 、 非 结构 化 的 文本 数据 ， 这 也 使 互联 网 成 为 大 数 
据 分 析 应 用 最 广泛 的 领域 之 一 。 例 如 : 搜索 引擎 技术 的 基础 就 是 基于 文本 分 析 算法 的 ， 而 面 
向 互联 网 用 户 的 精准 营销 则 是 以 广告 数据 分 析 〈 现 在 已 经 催生 了 一 门 科 学 “计算 广告 学 ”) 
为 依据 的 。 海 量 文 档 数据 库 需要 高 效 的 文本 挖掘 算法 作为 数据 索引 、 查 询 分 析 的 核心 算法 ， 
智能 输入 法 需要 分 析 用 户 输入 习惯 及 输入 的 词句 ， 自 动 客服 系统 由 原始 的 词语 匹配 技术 转变 
为 基于 文本 挖掘 的 自然 语言 理解 算法 。 

分 类 技术 是 数据 挖掘 中 非常 重要 的 分 支 。 分 类 就 是 根据 数据 集 的 特点 找 出 类 别 的 概念 描 
述 ， 这 个 概念 描述 代表 了 这 类 数据 的 整体 信息 ， 也 就 是 该 类 的 内 涵 描 述 ， 使 用 这 种 类 的 描述 
可 对 未 来 的 测试 数据 进行 分 类 。 


wwaibbt.com DOD00000 


306 9 第 四 部 分 机 器 学 习 实战 篇 


文本 挖掘 算法 在 搜索 引擎 中 一 直 扮演 着 重要 的 角色 ， 搜 索引 擎 每 个 阶段 的 发 展 都 伴随 着 
文本 挖掘 技术 的 进步 。1990 年 ， 作 为 可 搜索 FTP 文件 名 列表 的 Archie， 通 过 文件 名 匹配 技术 
完成 了 文本 检索 。1993 年 ， 世 界 上 第 一 个 Spider 程序 一 一 World Wide Web Wanderer 开始 在 网 
络 间 疏 取 资料 ， 统 计 互 联网 上 的 服务 器 数量 。 同 年 ，Stanford 大 学 的 学 生 创造 了 Excite， 它 通 
过 分 析 字 词 关 系 进 行 更 有 效 的 检索 ， 文 本 挖掘 技术 再 次 进步 。1994 年 ， 杨 致远 和 David Filo 
共 创 办 了 Yahoo，Yahoo 网 站 的 分 类 目录 由 人 工整 理 维护 ， 他 们 会 精 选 互联 网 上 的 优秀 网 站 ， 
进行 简要 描述 后 ， 分 类 放置 到 不 同 目 录 下 。 用 户 查询 时 ， 通 过 一 层 层 的 点 击 来 查找 自己 想 找 
的 网 站 ， 人 工分 类 精准 度 高 ， 但 工作 量 很 大 。 同 年 Lycos 正式 发 布 ，Lycos 使 用 了 更 先进 的 文 
本 挖掘 技术 ， 包 括 : 相关 性 排序 、 前 缀 匹配 和 字符 相近 限制 、 网 页 自动 摘要 等 。1995 年 ， 更 
多 的 文本 挖掘 技术 陆续 产生 ，AltaVista 在 搜索 引擎 中 引入 了 自然 语言 搜索 技术 ， 实 现 高 级 搜 
索 语法 (如 AND、OR、NOT 等 )。1997 年 ， 文 本 自动 分 类 技术 首次 应 用 于 Northernlight 搜 
索引 擎 ， 该 搜索 引擎 支持 对 搜索 结果 进行 简单 的 自动 分 类 。 同 年 ，google.com 的 域名 被 Larry 
Page 注册 ，Google 横 空 出 世 ， 之 后 发 展 成 为 今天 的 搜索 业 巨 头 。2013 年 全 球 在 线 广告 营 收 
中 ，Google 预计 占有 超过 33% 的 市 场 份额 ， 在 全 球 移动 广告 营 收 中 ，Google 的 市 场 份额 
约 56%。Google 研究 和 应 用 了 大 量 文本 挖掘 算法 ， 例 如 : Pagerank、 动 态 摘要 、 网 页 快照 、 
DailyRefresh、 多 文档 格式 支持 等 。 有 人 评论 说 Google 永远 改变 了 搜索 引擎 的 定义 。2001 年 ， 
百度 搜索 引擎 发 布 ， 和 Google 一 样 ， 百 度 也 研发 和 使 用 了 很 多 文本 挖掘 算法 : 网 页 快照 、 相 
关 搜 索 词 、 错 别 字 纠正 、Flash 搜索 、 信 息 快递 搜索 、 图 像 搜索 、 新 闻 搜索 等 。 

近年 来 ， 借 助 模式 识别 算法 ， 文 本 分 类 技术 飞速 发 展 。 文 本 分 类 大 致 分 为 几 个 要 素 : 文 
本 向 量 模型 表示 、 文 本 特征 选择 和 文本 训练 分 类 器 。 目 前 比较 流行 的 分 类 方法 主要 有 SVM、 
改进 余弦 相似 度 、 贝 叶 斯 方法 、 神 经 网 络 、k2 最 近邻 方法 、 遗 传 算法 、 粗 糙 集 等 。 文 本 分 
类 算法 通常 包括 文本 预 处 理 (中文 分 词 、 去 除 停 用 词 )、 文 本 特征 提取 、 样 本 特征 学 习 及 算 
法 对 未 知 样本 的 预测 等 过 程 。 

本 章 将 以 余弦 相似 度 、 朴 素 贝 叶 斯 分 类 算法 为 主 ， 阑 述 文本 分 类 技术 。 


10.2 余弦 相似 度 分 类 


基于 余弦 相似 度 的 文本 分 类 算法 实现 的 基本 过 程 为 : 首先 对 样本 文本 进行 分 词 ， 接 着 将 
垃圾 词 剔 除 ， 然 后 根据 剔除 后 的 词 条 把 样本 文本 中 的 所 有 词 映 射 到 n 维 空间 的 一 个 向 量 上 ， 
并 计算 未 知 文本 特征 组 形成 的 向 量 与 各 类 别 特征 组 向 量 之 间 夹 角 的 余弦 值 ， 最 后 通过 比较 余 
弦 值 的 大 小 判断 最 接近 的 分 类 。 


10.2.1 ”中文 分 词 


中 文 分 词 指 的 是 将 一 个 汉字 序列 切 分 成 一 个 个 单独 的 词 。 中 文 分 词 是 文本 挖掘 的 基础 ， 对 
于 一 段 中 文 文本 ， 中 文 分 词 是 文本 自动 识别 的 前 提 。 目 前 常用 的 中 文 分 词 软件 主要 有 以 下 几 种 : 
口 SCWS。 基 于 词 频 词典 的 机 械 中 文 分 词 引 擎 ， 它 能 将 一 整 段 的 汉字 基本 正确 地 切 分 
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成 词 。 采 用 的 是 采集 的 词 频 词 典 ( 词 频 TF 指 某 一 个 给 定 的 词语 在 一 份 给 定 的 文件 里 
出 现 的 次 数 ， 近 年 来 ， 利 用 计算 机 进行 词 频 统计 ， 以 词 频 统计 的 结果 来 验证 词典 收 词 
的 得 失 ， 决定 哪 些 词 需要 收录 ， 中 文 词 频 词典 按 词 频 排序 存储 词语 和 词组 )， 并 辅 以 
一 定 的 专 有 和 名称、 人 名 、 地 名 、 数 字 、 年 代 等 识别 规则 ， 从 而 达到 基本 分 词 的 目的 。 

口 ICTCLAS。 这 是 最 早 的 中 文 开源 分 词 项 目 ， 在 国内 973 专家 组 组 织 的 评测 活动 中 获 
得 了 第 一 名 ， 在 第 一 届 国 际 中 文 处 理 研究 机 构 SigHan 组 织 的 评测 中 获得 了 多 项 第 一 
名 。ICTCLAS 全 部 采用 C/C++ 编写 ， 支 持 Linux、FreeBSD 及 Windows 系列 操作 
系统 ， 支 持 C/C++、C#、Delphi、Java 等 主流 的 开发 语言 。 

口 HTTPCWS。 基 于 HTTP 协议 的 开源 中 文 分 词 系统 ， 将 取代 之 前 的 PHPCWS 中 文 分 


词 扩展 。 
口 记 丁 解 牛 分 词 。 仅 支持 Java 语言 ， 且 提供 lucence (一 款 流行 的 Java 全 文 搜索 引擎 ) 
接口 。 


口 CC-CEDICT。 提 供 一 份 以 汉语 拼音 为 中 文 辅助 的 汉 英 辞典 ， 其 词典 可 以 用 于 中 文 分 
词 ，Chrome 中 文 版 就 是 使 用 这 个 词典 进行 中 文 分 词 的 。 

口 “ 结 巴 ”( Jieba ) 中 文 分 词 。Python 中 文 分 词组 件 Jieba 支持 3 种 分 词 模式 : 精确 模式 ， 
试图 将 句子 最 精确 地 切 开 ,适合 文本 分 析 ; 全 模式 ， 把 句子 中 所 有 的 可 以 成 词 的 词 
语 都 扫描 出 来 ， 速 度 非 常 快 ， 但 是 不 能 解决 歧义 ; 搜索 引擎 模式 ， 在 精确 模式 的 基 
础 上 ， 对 长 词 再 次 切 分 ， 提 高 招 回 率 ， 适 合用 于 搜索 引擎 分 词 。 

本 章 基 于 Python 实现 算法 ， 因 此 选择 “结巴 ”中 文 分 词 作 为 分 词组 件 库 。 下 面 的 代码 

演示 了 分 词组 件 Jieba 的 基本 使 用 方法 。 


#!/usr/bin/env Python 
-Ww— GOdiNng!: Utf-8 —*— 
#code:myhaspl@qq.com 
#10-1.py 

import sys 
sys.path.append("../") 
import jieba 


seg_list = jieba.cut ("我 来 到 北京 清华 大 学 "，cut_all=True) 
print “Full Mode:", "/ ".join(seg list) 间 全 模式 


seg_list = jieba.cut ("我 来 到 北京 清华 大 学 "，cut _all=False) 
print "Default Mode:", "/ ".join(seg list) # 默认 模式 


seg_list = jieba.cut ("他 来 到 了 网 易 杭 研 大 厦 ") 


print ", ".joinl(seg list) 
seg_list = jieba.cut for_search ("小 明 硕 士 毕业 于 中 国 科学 院 计算 所 ,后 在 日 本 京都 大 学 深造 ") # 
搜索 引擎 模式 


print ", "“.join(seg list) 


演示 程序 的 分 词 效 果 如 下 : 
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/ 我 / 来 到 / 北京 / 清华 / 清华 大 学 / 华 大 / 大 学 / 

Default Mode: 我 / 来 到 / 北京 / 清华 大 学 

他 ， 来 到 ， 了， 网 易 ， 杭 研 ， 大 厦 

小 明 ， 颈 士 ， 毕 业 ， 于 ， 中 国 ， 科 学 ， 学 院 ， 科 学 院 ， 中 国 科学 院 ， 计 算 ， 计 算 所 ，，， 后， 在， 日 本 ， 
京都 ， 大 学 ， 日 本 京都 大 学 ， 深 造 

中 文 分 词 有 一 个 困难 ， 就 是 会 遇 到 歧义 。 同 样 的 一 句 话 ， 可 能 有 两 种 或 者 更 多 的 切 分 方 
法 。 主 要 的 歧义 有 两 种 : 交集 型 歧义 和 组 合 型 歧义 。 例 如 : 语句 中 出 现 了 “漂亮 的 "， 因 为 
“漂亮 ”和 “ 亮 的 ”都 是 词 ， 那 么 这 个 短语 就 可 以 分 成 “漂亮 /的 ”和 “ 漂 / 亮 的 ”， 这 种 称 
为 交集 型 歧义 。 组 合 型 歧义 情况 更 复杂 ， 要 根据 整个 名 型 来 判断 ， 比 如 : 句子 “2010 年 底 
部 队友 谊 篮球 赛 结 束 ”,“ 底 部 ”是 一 个 词 , “年底 ” 是 一 个 词 ,“ 部 队 ” 是 一 个 词 , “队友 ” 
是 一 个 词 ,“ 友 谊 ”是 一 个 词 ， 而 分 词 不 能 曲解 句子 含义 ， 这 样 就 产生 了 分 词 困 难 。 

目前 大 部 分 分 词 软件 能 较 好 地 解决 歧义 问题 。 下 面试 着 应 用 “结巴 ”分 词 对 “2010 年 
底部 队友 谊 篮球 赛 结束 ” 分 词 。 代 码 如 下 : 


#!/usr/bin/env Python 

#=*= coding: ut£f=8 =*= 

#code:myhaspl@qq.com 

#10-2 .py 

import jieba 

seg_list = jieba.cut("2010 年 底部 队友 谊 篮球 赛 结束 "， cut_al1=False) 
print "Default Mode:", "/ ".join(seg list) # 默认 模式 


从 下 面 的 执行 结果 来 看 ， 分 词 效 果 很 理想 。“ 结 巴 ” 分 词 技 术 比 较 成 熟 ， 能 应 用 于 实际 
工程 中 。 | 


Default Mode:Building Trie..., from E:\WinPpython-32bit-2.7.5.1\python-2.7.5\1lib\ 
site-packages\jieba\dict.txt 
loading model from cache c:\users\admini~l\appdata\local\temp\jieba.cache 
2010/ 年 底 / 部 队 / 友谊 / 篮球 赛 / 结束 
loading model cost 1.26200008392 seconds. 
Trie has been built succesfully. 


上 面 执行 结果 的 第 一 行 中 的 Trie 是 一 种 数据 结构 , “结巴 ”分 词 使 用 它 构 造 词 条 字典 。 
Trie 称 前 缀 树 或 字典 树 ， 是 一 种 有 序 树 ， 用 于 保存 关联 数组 ， 其 中 的 键 通常 是 字符 串 。 与 二 
叉 查 找 树 不 同 ， 键 不 是 直接 保存 在 节点 中 的 ， 而 是 由 节点 在 树 中 的 位 置 决 定 的 。 一 个 节点 的 
所 有 子孙 都 有 相同 的 前 级 ， 也 就 是 这 个 节点 对 应 的 字符 串 ， 而 根 节点 对 应 空 字符 串 。 


10.2.2 ” 停 用 词 清理 


停 用 词 又 称 垃圾 词 。 完 成 自然 语言 理解 与 文本 分 类 等 任务 时 ， 都 需要 预 处 理 文本 ， 自 动 
过 滤 掉 某 些 不 能 表征 意义 的 字 、 词 或 符号 ， 这 些 字 或 词 被 称 为 停 用 词 ( Stop Words )。 进 行文 
本 分 词 后 形成 的 词 条 组 中 会 存在 很 多 停 用 词 ， 这 些 词 基本 不 具备 表示 文本 特征 的 能 力 ， 其 存 
在 会 影响 其 他 词 对 文本 特征 的 表征 能 力 ， 因 此 ， 需 要 过 滤 后 才能 形成 “干净 ”的 文本 特征 码 。 
例如 : 对 下 面 这 句 话 进行 分 词 :“ 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 
今天 去 瞧 瞧 ， 明 天 去 看 看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 


wwaibbt.com DODDDDDODOD 


第 10 章 文本 分 类 案例 # 309 


些 快 些 呢 ? ”代码 如 下 : 


#!/usr/bin/env Python 
#=*= coding: Wtf=8 =*= 
#code:myhaspl@qq.com 
#10-3.py 


import jieba 

seg_list = jieba.cut(" 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 明 天 去 看 
看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? "，cut_all=False) 

print "Default Mode:"，"/ ".join(seg_1ist)## 默 认 模 式 


分 词 效果 如 下 : 


春秋 时 期 / 有 / 一 个 / 农夫 / ，/ 他 / 总 是 / 嫌 / 田 里 / 的 / 庄稼 / 长 得 / 太 慢 / ，/ 今天 / 去 / 瞧 瞧 
/ ，/ 明天 / 去 / 看 看 / ，/ 觉得 / 禾苗 / 好 像 / 总 / 没有 / 长 高 / 。/ 他 / 心 想 / : / 有 / 什么 / 办 法 / 
能 / 使 / 它们 / 长 得 / 高 些 / 快 些 / 呢 / ? / 


上 述 分 词 结果 中 ,“ 有 ”“ 能 "“ 呢 “什么 ”等 词 以 及 标点 符号 都 属于 停 用 词 的 范围 ， 
应 对 其 进行 清理 。 清 理 的 方式 是 建立 停 用 词 表 ， 扫 描 分 词 结果 ， 从 中 剔除 停 用 词 表 中 的 词 
条 。 代码 如 下 : 


#!/usr/bin/env python 
#=*= coding: utf=8 =#%= 
#code:myhaspl@qq.com 
#10-3.py 


import jieba 
seg_list = jieba.cut(" 春 秋 时 期 有 一 个 农夫 ， 他 总 是 嫌 田 里 的 庄稼 长 得 太 慢 ， 今 天 去 瞧 瞧 ， 明 天 去 看 
看 ， 觉 得 禾苗 好 像 总 没有 长 高 。 他 心 想 : 有 什么 办 法 能 使 它们 长 得 高 些 快 些 呢 ? "，cut_all=False) 


liststr="/ ".join(seg_lList) 


BEint MVM-=~===—= 清理 前 的 词 条 --------- 和 
print "Default Mode:"，1iststr## 默 认 模式 
print UVU"===s=” 清理 后 的 词 条 --------- oy 

# 停 用 词 清 理 

f_stop = open('stopwords.txt'") 

try: 


f_stop text = f stop.read( ) 
f_stop text=unicode(f stop text,'utf-8') 
finally: 
f_stop.close( ) 
f_stop seg list=f_ stop text.split('\n') 
for myword in liststr.split('/'): 
if not (myword.strip() in f stop seg list) and len (myword.strip())>1: 
print myword,',', 


从 直观 上 看 ， 清 理 停 用 词 后 留 下 的 文本 词 条 表征 文本 的 能 力 都 比较 强 。 来 比较 一 下 : 


Default Mode: 春秋 时 期 / 有 / 一 个 / 农夫 / ，/ 他 / 总 是 / 嫌 / 田 里 / 的 / 庄稼 / 长 得 / 太 慢 / ， 
/ 今天 / 去 / 瞧 瞧 / ，/ 明天 / 去 / 看 看 / ，/ 觉得 / 禾苗 / 好 像 / 总 / 没有 / 长 高 / 。/ 他 / 心 想 / : / 
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有 / 什么 / 办 法 / 能 / 使 / 它们 / 长 得 / 高 些 / 快 些 / 呢 / ? / 
总 是 田 里 ， 庄稼 ， 长 得 ， 太 慢 ， 今天 
看 看 ， 觉得 ， 禾苗 ， 好 像 ， 长 高 ， 心 想 ， 办 法 ， 长 得 ， 高 些 ， 人 快 些 ， 


10.2.3 ”算法 实战 


1. 任务 描述 
假设 提供 了 一 个 描述 战争 的 样本 数据 ， 如 图 10-1 所 示 。 现 在 需要 对 两 个 未 知 类 型 文本 
进行 分 析 ， 它 们 的 内 容 如 图 10-2 和 图 10-3 所 示 ， 判 断 哪 个 文本 是 描述 战争 类 的 。 





CEE 


RED 日 电 i 习 国 防 部 官员 38 二 策 天 下 鬼 ; 
i 二 各 训 山 的 这 肘 导 引导 以 巡 执 守 > 和 
二 请 


方 强调 ，“ 和 圣安东尼奥 号 《USS San Antonio) 为 两 栖 战 舰 ， 任 务 与 其 他 军舰 不 同 
二 “对 实 东 尼 奥 " 号 舰 上 数 百 名 ti 


美军 一 名 官员 表示 ， 先 前 就 规划 派 中 "圣安东尼奥 "号 至 地 中 海 ， 不 过 官员 认为 ， 根 据 目 
时 情 六 入 香 属 呈 本 下 水 扰 下 才 内 覃 这 十 全 生计 交 中 
官员 说 ， “至 安东尼奥, 号 留 驻 当 地 ， 是 为 以 防 万 一。 


奥巴马 政府 39 日 公布 4 页 长 的 情报 报告 ， 宣 布 美国 “高 度 确信 * 闭 利 亚 阿 萨 德政 权 上 周 在 > 中 
大 马 士 划 部 区 使 用 了 化 学 武器 ， 导 致 超过 1498 人 死 廊 ， 美国 将 惩罚 阿 萨 德 政权 。 | 


此 前 媒体 援引 五 角 大 楼 知情 官员 的 话说 ， 美 国 海军 通常 只 在 地 中 海 部 署 3 息 导弹 驱逐 舰 ? 
， 但 此 于 灾 信 这 是 您 按 知 入 守信 2 ED 务 的 竺 角 和 暂 不 返 
耽 ， 令 美 嘿 等 复 在 地 申 海 的 导弹 过 般 增 至 


同时 ， 美 军 部 署 在 海湾 地 区 的 航母 增 至 两 稻 。 其 中 执行 完 任务 的 尼 米 效 " 号 航母 暂 不 返 
， 留 在 印度 洋 待命 ， 与 已 经 抵达 阿拉 伯 海 换 防 的 特 鲁 | ] 号 航母 一 道 驻 守 海 湾 地 区 。 


根据 国防 部 官员 ， 以 上 这 5 艘 驱逐 舰 各 配备 约 至 少 36 枚 战 符 巡航 导弹 ， 总 数 约 为 298 枚 。 





图 10-1 描述 战争 的 样本 文本 


2. 算法 过 程 

用 余弦 相似 度 算法 完成 上 述 文本 分 类 任务 的 过 程 如 下 : 

(1 ) 读 取样 本 文本 。 

(2 ) 对 文本 进行 utf-8 编码 转换 。 

(3 ) 对 文本 进行 预 处 理 ， 完 成 中 文 分 词 ， 形 成 词 条 库 ， 并 去 除 停 用 词 。 

(4 ) 读 取 文本 词 条 库 ， 统 计 每 个 词 条 的 词 频 。 词 频 代 表 了 每 个 词 对 一 段 文本 的 的 重要 程 
度 ， 字 词 的 重要 性 随 着 它 在 文件 中 出 现 的 次 数 成 正比 增加 。 

(5 ) 将 上 一 步 整理 形成 的 每 个 词 的 词 频 组 成 文本 的 词 条 词 频 特 征 码 。 

(6 ) 使 用 前 面 第 1 步 到 第 5 步 的 方法 分 析 待 分 类 文本 ， 生 成 待 分 类 文本 的 词 条 词 频 特 
征 码 。 

(7 ) 将 待 分 类 文本 的 词 条 词 频 特征 码 与 样本 的 词 条 词 频 特 征 码 进行 比较 ， 应 用 余弦 相似 
度 算法 判断 待 分 类 文本 与 样本 的 相似 度 ， 取 最 相似 的 类 型 为 最 终 分 类 的 类 型 。 
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图 10-2 ”描述 战争 的 未 知 类 型 文本 





x 


| 公 ~ 

就 是 当月 
长 沙 消 全 区 因 条 
调整 和 业务 规则 改 


(50.55, -6.63, -1.23%) 


业 前 ， 很 多 36 用 户 部 有 二 种 呼声 ， 
， 上 是 生 在 不 久 前 ， 


HH， 广州 
的 促销 活 


倒台 相 扫 记 刘 于 志 目 | 


信 有 关 负 责 人 昨 
不 涉及 资费 政 


告 上 法 庭 。 
BEE 


用 户 


"的 卫 人 流量， 
法 律 。 记 者 发 现 ， 持 
流量 ”的 利用 ， 比 如 当月 使 用 388M 手 机 流量 ， 


存 ' 呢 ? 记者 随后 进行 了 验证 ， 按 该 促销 活动 规 
稚 置 沁 > 


每 月 158M 省 内 流量 ， 赠 送 流量 当月 有 效 )， 


Re 


友 ( 类 似 于 实 一 送 一 ”但 不 能 时 积 )。 


， 自 己 购 
和 并 因 
先 在 全 国 丢 
销 活动 ， 末 
给 自己 马 


| 流 


计 是 否 率 


储量 捐赠 


399M 省 内 


广州 电 1 
选择 在 下 月 和 下 下 月 由 


， 参 加 
可 获得 


0 


制 ， 直 接 让 用 户 享受 包 
促销 情况 ， 继 续 进行 活 


二 


图 10-3 ”描述 手机 的 未 知 类 型 文本 


实现 上 述 算法 过 程 。 
(1 ) 读 取样 本 文本 ， 完 成 utf-8 编码 转换 


注 量 四 实现 了 转 存 。 介 是， 广州 电信 相关 负责 人 二 





下 面 用 Python 


然后 进行 中 文 分 词 。 


print 


print 'loading 


print 
下 


'working 


[4 


open (sampfn) 


try: 


wwaibbt.com DOD00000 


312 8 第 四 部 分 机 器 学 习 实战 篇 


Ei Cext =: 所 zeaGfk ) 

fl text=unicode (fl text,'utf-8') 
finally: 

fl.closel( ) 
f1 seg list = jieba.cut(fl text) 


(2 ) 对 文本 词 条 进行 预 处 理 ， 去 除 停 用 词 ， 计 算 每 个 词 条 的 词 频 。 
# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 


f_stop = open('stopwords.txt') 


ty 

f_stop text = f stopvread( ) 

£f_stop text=unicode(f stop text,'utf-8') 
finally: 


f_stop.closel( ) 
£f_stop seg list=f_stop text.split('\n') 


test words={} 
all words={} 
for myword in fl seg list: 
BELnt es, 
if not (myword.strip() in f stop seg list): 
test words.setdefault (myword, 0) 
all words.setdefault (myword, 0) 
all words[myword]+=1 


(3 ) 读 取 待 分 类 文本 ， 进 行 中 文 分 词 。 


# 第 一 个 待 测试 数据 
ftest1l = open (ftestlfn) 
try: 


ftestl] text = ftestl.read( ) 

ftestl1 text=unicode (ftestl text,'utf-8') 
finally: 

ftestl.close( ) 
ftestl seg list = jieba.cut (ftestl1 text) 


# 第 二 个 待 测试 数据 
ftest2 = open (ftest2fn) 
try: 


ftest2 text = ftest2.read( ) 
ftest2 text=unicode (ftest2 text,'utf-8') 
finally: 
ftest2.close( ) 
ftest2 seg list = jieba.cut (ftest2 text) 


(4 ) 继续 预 处 理 待 分 类 文本 ， 去 除 停 用 词 ， 并 生成 词 频 特征 码 。 
# 读 取 待 测试 文本 


mytestl1 words=copy.deepcopy (test_ words) 
for myword in ftestl seg list: 
DETNnE “3, 
if not (myword.strip() in f stop seg list): 
if mytestl] words.has key (myword): 
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mytest1_words [myword] +=1 


mytest2 words=copy.deepcopy (test words) 
for myword in ftest2 seg list: 
Pint Wa 
if not (myword.strip() in f stop seg list): 
if mytest2 words.has key (myword): 
mytest2 words[myword]+=1 


(5 ) 计算 并 输出 样本 与 待 测试 文本 的 余弦 相似 度 。 


# 计 算 样本 与 待 测试 文本 的 余弦 相似 度 
sampdata=[] 
testldata=[] 
test2data=[] 
for key in all words.keys(): 
sampdata.append(all words[key]) 
testldata.append (mytest1_words [key] ) 
test2data.append (mytest2 words[key]) 
testlsimi=get cossimi (sampdata,testldata) 
test2simi=get cossimi (sampdata,test2data) 
print u"%s 与 样本 [%s] 的 余弦 相似 度 :%$f"% (ftestlfn, sampfn, testlsimi) 
print u"%s 与 样本 [%s] 的 余弦 相似 度 :$f"% (ftest2fn, sampfn, test2simi) 


上 面 这 段 代 码 调用 了 get_cossimi 函数 ， 这 是 余弦 相似 度 计算 函数 。 该 函数 的 定义 如 下 : 


def get cossimi (x,y): 
myx=np.array (x) 
myy=np.array (y) 
cosl=np.sum (myx*myy) 
cos21=np.sqrt (sum (myx*myx)) 
cos22=np.sqrt (sum (myy*myy)) 
return cosl/float (cos21*cos22) 


(6 ) 根据 屏幕 输出 的 相似 度 ， 预 测 分 类 。 

两 个 向 量 之 间 的 角度 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 如 果 两 个 向 量 有 相 
同 的 指向 ,余弦 相似 度 的 值 为 1; 如 果 两 个 向 量 夹 角 为 90， 余弦 相似 度 的 值 则 为 0。 可 见 ， 
余弦 相似 度 越 接近 1， 两 个 文本 就 越 相似 。 | 


mobile2 .txt 与 样本 [war2.txt] 的 余弦 相似 度 :0.160806 
warl .txt 与 样本 [war2.txt] 的 余弦 相似 度 :0.264215 


上 面 是 代码 的 执行 结果 ， 分 析 这 个 结果 可 得 出 结论 : mobile2.txt 与 war2.txt 的 余弦 相似 
度 较 小 ，warl.txt 与 war2.txt 的 余弦 相似 度 为 0.264215， 更 接近 1。 因 此 ， 应 将 warl.txt 文 
本 文件 划分 为 战争 类 。 

以 下 是 全 部 源 代 码 : 


#!/usr/bin/env Python 
#-*~- coding: Utf-8 -*- 
#code:myhaspl@qq.com 
#10-4.py 
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import numpy as np 
import jieba 

import copy 
ftestlfn='mobile2.txt" 
ftest2fn='warl .txt" 
sampfn='war2.txt'" 


def get cossimi (x,y): 
myx=np.array (x) 
myy=np.array (y) 
cosl=np.sum (myx*myy) 
cos21=np.sqrt (sum (myx*myx)) 
cos22=np.sqrt (sum (myy*myy)) 
return cosl/float (cos21*cos22) 
if name =="' main '; 
print 
print Loading six’ 
print ‘'working', 
fl = open (sampfn) 
try: 
£1 text = £1.read( ) 
£1 text=unicode (fl text, 'utf-8') 
finally: 
fl.close( ) 
fl seg list = jieba.cut (fl text) 


# 第 一 个 待 测试 数据 


ftestl = open (ftestlfn) 
try: 
ftestl1 text = ftestl.read( ) 
ftestl1 text=unicode (ftestl text,'utf-8') 
finally: 
ftestl.close( ) 
ftestl seg list = jieba.cut (ftestl1 text) 


# 第 二 个 待 测试 数据 
ftest2 = open (ftest2fn) 
try: 


ftest2 text = ftest2.read( ) 

ftest2 text=unicode (ftest2 text,'utf-8') 
finally: 

ftest2.closel( ) 
ftest2 seg list = jieba.cut (ftest2 text) 


# 读 取样 本 文本 
# 去 除 停 用 词 ， 同 时 构造 样本 词 的 字典 
f_stop = open('stopwords .txt') 
try: 
f_stop text = f_stop.read( ) 
f_stop text=unicode(f _ stop text,'utf-8') 
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finally: 
f_stop.close( ) 
f_stop_seg_ list=f stop text.split('\n') 


test words={} 
all words={} 
for myword in fl seg list: 
Bnt ,ny 
if not (myword.strip() in f stop seg list): 
test words.setdefault (myword,0) 
all words.setdefault (myword, 0) 
all_ words [myword]+=1 


# 读 取 待 测试 文本 
mytestl1 words=copy.deepcopy (test words) 
for myword in ftestl seg list: 
DELNt sn 
if not (myword.strip() in f stop seg list): 
if mytestl] words .has_key (myword): 
mytest1l_words [myword]+=1 


mytest2 words=copy.deepcopy (test words) 
for myword in ftest2 seg list: 
Print ves 
if not (myword.strip() in f stop seg list): 
if mytest2 words.has_ key (myword) : 
mytest2 words[myword]+=1 
# 计 算 样本 与 待 测试 文本 的 余弦 相似 度 
sampdata=[] 
testldata=[] 
test2data=[] 
for key in all words.keys(): 
sampdata.append(all words[key]) 
testldata.append (mytestl1 words [key] ) 
test2data.append (mytest2 words[key]) 
testlsimi=get cossimi (sampdata,testldata) 
test2simi=get cossimi (sampdata, test2data) 
print u"%s 与 样本 [%s] 的 余弦 相似 度 :%f"% (ftestlfn,sampfn,testlsimi) 
print u"%s 与 样本 [%s] 的 余弦 相似 度 :%f"% (ftest2fn, sampfn,test2simi) 


10.3 ”朴素 贝 叶 斯 分 类 


贝 叶 斯 是 一 种 基于 概率 的 学 习 算法 ， 其 性 能 可 与 决策 树 、 神 经 网 络 等 算法 相 媲美 ， 是 文 
本 分 类 挖掘 技术 的 典型 代表 。 它 以 贝 叶 斯 定理 为 基础 ， 预 测 成 员 关系 的 可 能 性 ， 由 于 其 具有 
坚实 的 数学 理论 基础 ， 并 且 能 综合 先 验 信息 和 数据 样本 信息 ， 因 此 成 为 当前 机 器 学 习 和 数据 
挖掘 的 研究 热点 之 一 。 朴 素 贝 叶 斯 分 类 器 是 目前 公认 的 一 种 简单 有 效 的 概率 分 类 方法 ， 这 种 
分 类 方法 具有 非常 高 的 计算 效率 ， 在 某 些 应 用 问题 上 表现 出 较 好 的 分 类 精度 ， 因 而 被 广泛 地 
应 用 于 文本 挖掘 领域 。 
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10.3.1 算法 描述 


标准 的 朴素 贝 叶 斯 分 类 算法 的 执行 过 程 如 下 : 

(1) 获取 样本 文本 ， 将 样本 人 工分 类 整理 ， 并 进行 标记 。 

(2 ) 对 每 个 类 别 的 样本 文本 进行 中 文 分 词 。 

(3 ) 去 除 样本 文本 中 垃圾 词 条 。 

(4) 将 整理 后 词 条 合成 样本 文本 的 特征 组 ， 分 析 并 计算 词 条 频率 信息 。 例 如 : 假 
设 共 有 3 个 类 别 的 文本 ， 词 条 i 在 类 别 A、B、C 中 出 现 的 次 数 分 别 为 COUNT'(A)、 
COUNT;(B)、COUNT;(C)， 每 个 类 别 的 词 条 总 数 为 WORDCOUNT(A)、WORDCOUNT(B)、 
WORDCOUNT(C)， 那 么 根据 词 每 个 类 别 的 词 条 总 数 与 词 条 在 每 个 类 别 出 现 的 次 数 就 能 
计算 词 条 频率 ， 计 算 方式 是 : 词语 在 每 个 类 别 出 现 的 次 数 除 以 该 类 别 的 总 词语 数 。 

比如 ， 某 类 别 的 词 条 总 数 是 100 个 ， 而 词 条 “冬天 ”出 现 了 5 次, 那么 “冬天 ”一 
词 在 该 文件 中 的 词 频 就 是 0.05 ( 5/100 )。 

(5 ) 根据 词 条 频率 信息 ， 计 算 词 条 在 各 类 别 文本 的 先 验 概率 。 词 条 i 的 各 类 别 先 验 概率 
计算 公式 为 : 

Pi(A)=COUNTI(A)/WORDCOUNT(AI) 

P:(B)=COUNT(B)/WORDCOUNT(B) 

P;:(C)=COUNT,(C)/WORDCOUNT(C) 

《6 ) 读 取 未 知 样本 ， 进 行 中 文 分 词 ， 并 去 除 垃圾 词 ， 然 后 形成 样本 特征 组 。 

(7) 将 未 知 样本 特征 词 条 的 先 验 概率 代入 朴素 贝 叶 斯 公式 计算 后 验算 概率 ,计算 得 到 的 
最 大 概率 的 所 属 类 别 即 为 文本 所 属 类 别 。 


10.3.2 ” 先 验 概率 计算 


同一 条 词 条 在 不 同类 型 的 文本 中 出 现 的 频率 通常 是 不 一 样 的 ， 很 多 词 条 只 会 在 某 些 类 别 
的 文本 中 出 现 ， 比 如 说 “微软 "、“ 谷 歌 "、“ 医 保 ”"、“ 乔 布 斯 ”等 词 条 极 少 出 现在 战争 类 题材 的 
文本 中 ， 而 “黑莓 “3G”、“ 手 机 ”““ 电 信 ” 等 词 极 少 出 现在 健康 类 题材 的 文本 中 。 词 条 先 验 
概率 计算 通过 提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 它 会 以 词 条 为 键 
值 ， 生 成 词 条 先 验 概率 哈 希 数组 〈 在 Python 中 称 为 字典 结构 )， 以 供 后 期 分 类 算法 使 用 。 

根据 朴素 贝 叶 斯 的 先 验 概率 计算 公式 来 看 ， 在 后 期 计算 中 ， 需 要 计算 词 条 先 验 概率 累 
乘 。 如 果 某 词 在 某 类 型 的 样本 中 从 来 没有 出 现 ， 其 概率 为 0， 这 样 将 会 使 累 乘 结果 变 为 0， 
算法 变 得 毫 无 意义 。 在 计算 先 验 概率 后 ， 在 每 个 词 条 的 先 验 概率 基础 上 加 上 一 个 适当 的 较 小 
的 概率 值 ， 防 止 累 乘 出 现 0。 此 外 ， 某 词 在 某 类 型 的 所 有 样本 中 未 出 现 ， 不 代表 该 词 不 会 出 
现在 该 类 型 的 所 有 文本 中 ， 因 此 ， 这 个 较 小 概率 值 非常 有 必要 加 入 先 验 概率 的 计算 中 。 


10.3.3 ”最 大 后 验 概 率 
对 未 知 文本 分 类 时 ， 需 要 计算 后 验 概 率 ， 对 于 在 未 知 文本 中 出 现 的 词 条 ， 提 取 其 在 先 
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验 概率 哈 希 数组 中 的 概率 值 。 然 后 分 别 计算 不 同类 型 哈 希 数组 中 出 现 的 词 条 的 先 验 概率 累 
乘 ， 从 而 得 到 未 知 文本 属于 不 同类 型 的 后 验 概率 ， 其 中 ， 最 大 概率 所 属 类 别 即 为 未 知 文本 
所 属 类 别 。 


10.3.4 ”算法 实现 


这 里 分 别提 取 数 量 几乎 相同 的 新 闻 文 本 作为 样本 ,这 些 样本 属于 汽车 、 财 经 、 健 康 、 教 
育 、 军 事 类 新 闻 ， 对 样本 进行 分 析 。 为 了 验证 效果 ， 最 后 使 用 未 在 样本 中 出 现 的 新 闻 正 文 链 
接 进行 测试 ， 分 析 该 链接 指向 的 新 闻 所 属 类 别 。 


1. 新 闻 有 息 取 

提取 新 闻 文本 的 原理 与 搜索 引擎 相同 。 首 先 ， 通过 类 似 仆 虫 的 程序 对 新 闻 进行 候 取 ,分 
析 新 闻 主 页 的 新 闻 正 文 链接 ; 接着 爬 取 新 闻 正 文 网 页 ， 清 理 HTML 标记 ; 然后 形成 文本 样 
本 ， 为 提高 效率 ， 仅 在 内 存 中 形成 文本 样本 ， 不 在 本 地 硬盘 保存 ; 最 后 ， 以 内 存 数据 为 基 
础 ， 进 行 下 一 步 分 析 。 相 关 代 码 如 下 : | 


# 读 取 网 上 新 闻 搜 索 目 录 

txt_class=[] 

myclassfl = open('ClassList.txt') 
try: 


myclass str = myclassfl.read() 

myclass_ str=unicode (myclass str,'gbk') 

myclass text=myclass str.split() 

for ii in xrange(0,1len (myclass text),2): 
op 
txt_class.append ( (myclass _ text [iij,myclass _ text[ii+l])) 

finally: 
myclassfl.close() 


links=[] 
# 分 类 别 仆 取 网 页 ， 生 成 词 条 数据 
for ci in xrange(0,1len(txt class)): 
print u"\n 爬 取 %s 类 网 页 :%s" 等 (txt class[ci][0],txt class[cil][1]) 
links.append([]) 
pattern = re.compile(r'(.*?)/\d+\.shtml') 
purl=txt class[ci][1] 
page=urllib2.urlopen (Purzl) 
soup = BeautifulSoup (page) 
for link in eoup.find all('a'): 
mylink=link.get('href') 
match = pattern.match (mylink) 
if match and mylink.find("hd")<0: 
basestr="http://www.chinanews.com" 
if mylink.find("chinanews.com")<0: 
mylink=basestri+mylink 
print mylink 
links[cil] .append (mylink) 
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2. 先 验 概率 计算 

提取 不 同类 别 中 样本 的 词 条 ， 分 析 其 在 所 有 类 别 中 出 现 的 概率 ， 生 成 以 词 条 为 键 值 的 先 
验 概 率 字 典 变量 。 此 外 ， 根 据 朴 素 贝 叶 斯 的 先 验 概率 计算 公式 ， 在 后 期 计算 中 ， 需 要 计算 词 
条 先 验 概 率 累 乘 ， 所 以 在 每 个 词 条 的 先 验 概 率 基 础 上 加 上 一 个 适当 的 较 小 的 概率 值 ， 防 止 累 
乘 出 现 0。 代 码 如 下 : 


# 词 条 在 每 个 样本 中 出 现 的 次 数 

basegl=le-8 

wordybcount=1{} 

lbcount=np.zeros (len(yb txt)) 

# 整 理 计 算 词 条 出 现 次 数 

for i in xrange(0,len(yb txt) ) : 

for j in xrange(0,len(yb txt[il)): 
for k in xrange(0,1lenl(yb txt[i][j])): 

my_word=yb txt[i][j] [k] .encode('gbk') 
wordybcount.setdefault (my_word,np.repeat (0,1len(yb txt)).tolist()) 
wordybcount [my _ word] [i]+=1 
lbcount [i]+=1 


# 计 算 词 条 先 验 概率 
print u"\n 计 算 词 条 概率 " 
ybgl=1{} 


for my word in wordybcount .keys () : 
ybgl.setdefault (my_word,np.repeat (0.,lenl(yb txt)) .tolist()) 
for ybii in xrange(0,lenl(yb txt)): 
ybgl [my_word] [ybii]=basegl+wordybcount [my word] [ybii]/float (lbcount [ybii]) 
rint "es 


3. 后 验 概率 计算 
读 取 待 分 类 文本 的 先 验 概率 字典 变量 ,提取 每 个 词 条 的 先 验 概率 值 ， 然 后 计算 不 同类 
型 中 出 现 的 词 条 的 先 验 概率 累 乘 ， 最 后 得 到 待 分 类 文本 属于 不 同类 型 的 后 验 概率 。 代 码 如 下 : 


# 计 算 待 分 类 文本 后 验 概率 
print u" 计 算 待 分 类 文本 后 验 概率 " 
testgl=None 
wordgl=None 
testgl=np.repeat (1.,1len(yb txt)) 
for myword in ftest seg list: 
if not (myword.strip() in f stop seg list) and len(myword.strip())>1: 
myword=myword.encode ('gbk') 
for i in xrange (0, Len(yb txt)): 
wordgl=ybgl .get (myword) 
if wordgl: 
if wordgl [lil]<>0: 
testgl [i]*=wordgl [ij] 
if np.min(testgl)<le-50: 
testgl*=1le20 
if np.max (testgl)>lel100 : 
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testgl/=float (1e30) 


运行 程序 ， 读 取 网 页 http://www.chinanews.com/edu/2013/09-17/5296319.shtml 和 http:// 
finance. chinanews.com/auto/2013/09-16/5290491.shtml， 以 这 两 个 网 页 为 测试 对 象 进行 分 类 。 
执行 结果 如 下 : 


读 取 待 分 类 文本 
http://www.chinanews.com/edu/2013/09-17/5296319.shtml 读 取 成 功 . 
计算 待 分 类 文本 后 验 概率 
http://www.chinanews.com/edu/2013/09-17/5296319.shtml 

:教育 

计算 待 分 类 文本 后 验 概率 
http://finance.chinanews.com/auto/2013/09-16/5290491.shtml 
:汽车 


从 以 上 执行 结果 看 ， 两 个 新 闻 链 接 被 成 功 地 划分 到 教育 类 新 闻 和 汽车 类 新 闻 ， 分 类 效果 
良好 。 

本 例 中 ， 样 本 数量 较 小 ， 在 实际 应 用 中 ， 每 个 类 别 应 准备 更 多 的 样本 文本 。 通 常 来 说 ， 
一 个 分 类 效果 较 好 的 朴素 贝 叶 斯 算法 ， 其 每 个 类 别 的 样本 数量 大 致 有 2000 一 10000 个 。 近 年 
来 ， 基 于 朴素 贝 叶 斯 分 类 的 改进 算法 越 来 越 多 ， 最 普遍 的 是 在 算法 中 加 入 权重 的 影响 ， 针 对 
某 些 关键 词 或 中 心 词 加 上 权重 ， 这 种 方法 法 被 称 为 加 权 朴素 贝 叶 斯 算法 。 

关于 加 权 朴 素 贝 叶 斯 算法 的 更 多 细节 ， 可 以 查看 在 《厦门 大 学 学 报 : 自然 科学 版 》2012 
年 第 4 期 上 刊登 的 侥 丽 丽 等 的 文章 《基于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 分 类 算法 》 也 可 
以 在 Google 学 术 搜 索 (http:/scholar.google.com.hk/schhp?hl=zh-CN ) 中 以 “朴素 贝 叶 斯 分 
类 算法 ”为 关键 字 进 行 搜索 。 

以 下 是 完整 的 Python 代码 : 


#!/usr/bin/env Python 

#=*= Coding: ia 人 = 各 =*x= 

#code:myhaspl@qq.com 

#10-5.py 

#bayes 文 本 分 类 

# 本 程序 仅 做 机 器 学 习 研究 

# 本 程序 对 新 闻 扑 取 的 工作 原理 与 搜索 引擎 相同 ， 通 过 分 析 链 接 
# 直 接 搜索 新 闻 , 计算 词 条 概率 


import numpy as np 

import jieba 

import urllib2 

from bs4 import BeautifulSoup 
import re 


# 读 取 网 上 新 闻 搜索 目录 
txt class=[] 
myclassfl = open('ClassList.txt') 
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try: 
myclass_str = myclassfl.read() 
myclass_str=unicode (myclass str,'gbk') 
myclass text=myclass_ str.split() 
for ii in xrange(0,lenl(myclass text),2): 
Drint 
txt class.append( (myclass text[ii],myclass text[ii+l])) 
finally: 
myclassfl.close() 


links=[] 
# 分 类 别 扑 取 网 页 ， 生 成 词 条 数据 
for ci in xrange(0,len(txt class)): 
print u"\n 扑 取 %s 类 网 页 :%s" % (txt class[ci][0],txt class[ci][1]) 
links.append([]) 
pattern = re.compile(r'(.*?)/\d+\.shtml') 
purl=txt class[ci][1] 
page=urllib2 .urlopen (purl) 
soup = BeautifulSoup (page) 
for link in soup.find all('a'): 
mylink=link.get('href') 
match = pattern.match (mylink) 
if.match and mylink.find("hd")<0: 
basestr="http://www.chinanews.com" 
if mylink.find("chinanews.com")<0: 
mylink=basestrt+mylink 
print mylink 
links[ci] .append (mylink) 


# 提 取 正 文 内 容 
ybtxt=[] 
print u"\n 提 取 正 文 内 容 " 
for ci in xrange(0,len(txt class)): 
ybtxt .append([]) 
BELAt “ny 
for mypage in links[cil]: 
my_page=urllib2 .urlopen (mypage) 
my_soup = BeautifulSoup (my page,from encoding="gb2312") 
my_tt=my_soup.get text("|", strip=True) 
my_txt=my_ tt 
my_fs=u' 正 文 | " 
my_fel=u' 【编辑 ' 
my_fe2=u' 标 签 ' 
zw_start=my txt.find(my fs)+8 
last txt=my txt[zw start:len(my txt)] 
zw end=last txt.find(my fel) 
if zw_ end<0: 
zw_end=last txt.find(my fe2) 
page content=my txt[zw start:zw start+zw_end] 
page content=page content.replace(r' acK({aid:1807,format:0,mode:1,gid:1 
:Serverbaseurl:"me.afp.chinanews.com/"});','') .replace('|','') .replace(r'{aid:1805,fo 
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rmat:0,mode:1,gid:1,serverbaseurl:"me.afp.chinanews.com/"}','') .replace('cK();',"'') 
page_content=page_content.replace (u'1807: 新 闻 通 发 页 大 画 ', '') .replace (u' 标 
签 : ','') .replace (u' 评 论 ','') .replace (u' 正 文 start 编 辑 姓名 start 编 辑 姓名 ','') .replace (u' 正 文 
start" ss ") 
if len (Page_content .strip())>0: 


try: 
print my_ soup.title.string.encode('gb2312') 
Page_content=my_ soup.title.stringt+page content 
except: 
bEinE sues 
finally: 
print "-done." 
ybtxt [ci]l .append (page content) 
# 分 析 正 文 内 容 
print u"\n 分 析 正 文 内 容 ..." 
# 停 用 词 字典 
f_stop = open('stopwords.txt') 
Ezy: 


£f_stop text = f_stop.read( ) 

£f_stop text=unicode(f _ stop text,'utf-8') 
finally: 

f_stop.close( ) 
f_stop_seg list=f stop text.split('\n') 


# 分 类 提取 正文 词 条 
print u"\n 提 取 正 文 词 条 ..." 
yb txt=[] 
for ci in xrange(0,1en(ybtxt)): 
Yb txt.append([]) 
for cj in xrange(0,1Len(Yybtxt[ci]l)): 
yb_txt[ci] .append([]) 
my_str = ybtxt[cil][cj] 
my_txt=jieba.cut (my_str) 
for myword in my txt: 
if not (myword.strip() in f stop seg list) and len (myword.strip())>1: 
yb _ txt[cil] [cj] .append (myword) 
BEiRE WW,™, 


# 词 条 在 每 个 样本 中 出 现 的 次 数 

basegl=le-10 

wordybcount={} 

lbcount=np.zeros (len(yb txt)) 

# 整 理 计算 词 条 出 现 次 数 

for i in xrange (0, Len (yb txt) ) : 

for j in xrange (0,len(yb txt[i]l)): 
for k in xrange(0,1len(yb txt([i][j])): 

my_word=yb txt[i][j][k] .encode('gbk') 
wordybcount .setdefault (my_word,np.repeat (0,1len(yb txt)).tolist()) 
wordybcount [my_word] [i]+=1 
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lbcount [i]+=1 
# 计 算 词 条 先 验 概率 
print u"\n 计 算 词 条 概率 " 
ybgl=1{} 
for my_word in wordybcount.keys(): 
ybgl.setdefault (my word,np.repeat (0.,1len(yb txt)) .tolist()) 
for ybii in xrange(0,lenl(yb txt)): 
ybgl [my_word] [ybii]=basegl+wordybcount [my_ word] [ybii]/float (lbcount [ybii]) 
Print. av, 
# 读 取 待 分 类 文本 
print u"\n 读 取 待 分 类 文本 " 
ftestlinks=[] 
ftestlinks.append(r'http://www.chinanews.com/edu/2013/09-17/5296319.shtml') 
ftestlinks.append(r'http://finance.chinanews.com/auto/2013/09-16/5290491.shtml') 
for mypage in ftestlinks: 
my_page=urllib2 .urlopen (mypage) 
my_soup = BeautifulSoup (my page,from encoding="gb2312") 
my tt=my soup.get text("|", strip=True) 
my_ txt=my tt 
my_fs=u' 正 文 |' 
my_fel=u' 【编辑 ' 
my_fe2=u' 标 签 ' 
zw_start=my txt.find(my_ fs)+8 
last txt=my txt[zw_ start:len(my txt)] 
zw_end=last txt.find(my fel) 
if zw _ end<0: 
zw_ end=last txt.find(my fe2) 
Page content=my txt[zw_ start:zw_ start+zw_end] 
page_ content=page content.replacel(r' acK({aid:1807,format:0,mode:1,gid:1,ser 
verbaseurl:"me.afp.chinanews.com/"});','') .replace('|','') .replace(r'{aid:1805,format 
:0,mode:1,gid:1,serverbaseurl:"me.afp.chinanews.com/"}','') .replace('cK();',"'') 
page_content=page_content .replace(u'1807: 新 闻 通 发 页 大 画 ','') .replace (u' 标 
签 : ','') .replace (u' 评 论 '!,'') .replace (u' 正 文 start 编 辑 姓名 start 编 辑 姓 名 ','') .replace(u' 正 文 
Startbr ,vy 


page content=my_ soup.title.string+tpage content 
print u"%s 读 取 成 功 ."%smypage 


# 计 算 待 分 类 文本 后 验 概率 
print u" 计 算 待 分 类 文本 后 验 概率 " 
testgl=None 
wordgl=None 
testgl=np.repeat (1.,1en (yb _ txt)) 
if lenl(page content.strip())>0: 
ftest seg list = jieba.cut (page content) 
for myword in ftest seg list: 
myword=myword.encode ('gbk') 
if not (myword.strip() in f stop seg list) and len (myword.strip())>2: 
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for i in xrange(0,1lenl(yb txt)): 
wordgl=ybgl .get (myword) 
if wordgl: 
if wordgl [i]<>0: 
testgl [i]*=wordgl[i] 
if np.min(testgl)<le-100: 
testgl*=1le30 
if np.max (testgl)>lel100: 
testgl/=float (1e30) 


# 计 算 最 大 归属 概率 
maxgl=0. 
mychoice=0 
for ti in xrange(0,1lenl(yb txt)): 
if testgl [ti]>maxgl: 

maxgl=testgl [ti] 

mychoice=ti 
print "\n\n%s\n:%s"% (mypage,txt class[mychoice] [0]) 


10.4 小 结 


现在 已 是 数字 时 代 ， 可 以 获得 和 需要 处 理 的 文本 数量 越 来 越 多 ， 这 对 海量 文本 数据 的 分 
类 和 处 理 也 提出 了 更 高 的 要 求 ， 文 本 挖掘 技术 应 运 而 生 。 而 文本 分 类 作为 文本 挖掘 的 主要 技 
术 ， 近 年 来 更 是 被 广泛 采用 。 

文本 分 类 是 指 依据 文本 内 容 ， 由 计算 机 根据 某 种 自动 分 类 算法 ， 把 文本 划分 为 预先 定义 
好 的 类 别 。 本 章 基于 余弦 相似 度 、 朴 素 贝 叶 斯 分 类 算法 阐述 了 文本 分 类 及 网 页 分 类 技术 ， 并 
用 Python 实现 算法 。 同 时 详细 讲解 了 文本 预 处 理 技术 〈 中 文 分 词 、 去 除 垃圾 词 条 )、 文 本 特 
征 提 取 技 术 、 未 知 样本 分 类 等 算法 过 程 ， 列 举 了 分 类 算法 应 用 过 程 中 可 能 出 现 的 问题 以 及 解 
决 问题 的 方法 。 


思考 题 


(1 ) 基于 余弦 相似 度 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 
(2 ) 基于 SVM 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 


鸭 ) 提示 
文本 样本 的 特征 组 可 以 定义 为 其 包含 的 词 条 在 某 类 别 中 出 现 的 先 验 概率 。 
(3 ) 基于 加 权 朴素 贝 叶 斯 算法 对 新 闻 网 页 进行 分 类 ， 观 察 其 效果 。 


国 ) 提示 
可 以 以 新 闻 的 标题 为 关键 各 ， 将 标题 中 包含 的 词 赋予 较 大 的 权重 ， 将 权重 直接 乘 以 先 验 
概率 作为 标题 词 条 的 先 验 概率 。 
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对 于 初学 者 的 入 门 教材 而 言 ， 本 书 是 一 个 不 错 的 选择 ， 由 浅 入 深 ， 通俗 易 懂 。 本 书 不 在 理论 上 做 过 多 的 纠结 ， 讲 究 
“make hands dirty”, 在 对 于 机 器 学 习 儿 个 主要 问题 有 接触 的 基础 上 ， 引 入 实 厂 一 下 和 信守 诗人 管 全 全 下 在 机 器 学 习 
的 相关 职位 中 上 和 手 。 从 这 个 方面 来 说 ， 此 书 是 在 快速 发 展 的 大 数据 时 代 中 一 


【法 工程 师 
本 书 从 耐心 帮助 读者 了 解 “什么 是 机 器 学 习 ” 开 始 ， 由 浅 入 深 地 讲解 相 算法 的 应 
用 ,并 附 有 完整 代码 ， 代 码 能 实际 运行 。 这 本 书 适合 不 同 层次 的 读者 ， 它 能 1 ;相关 算法 


应 用 于 实践 工作 中 。 
一 一 交 恒 光 杭州 阿里 科技 有 限 公 司 一 搜 产品 线 工 程 师 


本 书 是 机 器 学 习 实 践 爱好 者 的 盛宴 。 作 者 利用 计算 机 上 的 数学 计算 工具 ， 循 序 渐进 地 展示 了 与 之 相关 的 基本 算法 及 其 实 

现 过 程 。 本 书 的 特色 在 于 ， 书 中 提供 的 大 量 与 机 器 学 习 应 用 相关 的 实践 案例 ， 包 括 统计 分 析 和 模式 识别 的 基本 方法 ， 都 具有 

较 强 的 代表 性 ， 正 所 谓 实 践 出 真知 ， 本 书 是 机 器 学 习 实践 的 宝典 ， 为 涉足 统计 方法 和 机 器 学 习 实践 的 爱好 者 指明 了 一 条 简单 
易 行 的 求知 之 路 。 

一 一 宋 怖 中 国 科 学 院 自动 化 研究 所 在 读 博士 


全 书 把 机 器 学 习 的 编程 语言 、 数 学 理论 和 实例 有 机 结合 ， 是 一 本 值得 你 拥有 的 参考 书 ， 极 具 工程 价值 。 书 中 的 朴素 贝 

叶 斯 分 类 方法 对 我 来 说 特别 有 感触， 之 前 参加 过 数据 挖掘 比赛 ， 将 此 方法 应 用 于 推荐 系统 ， 具 有 较 高 的 准确 率 和 重 棒 性 等 特 
点 。 此 外 ， 机 器 学 习 与 嵌入 式 技术 的 关系 越 来 越 密切 ， 智 能 物 联网 正在 走 近 ， 相 信和 未 来 的 几 年 会 走 近 千 家 万 户 。 

一 一 方 家 挺 自 仪 股份 嵌入 智能 工程 师 


机 器 学 习 是 一 门 复杂 且 难 以 找到 突破 口 的 学 科 ， 此 书 结合 实际 应 用 ， 让 读者 更 容易 踏 入 机 器 学 习 的 大 门 ， 参 考 本 书 的 算 
法 ， 应 用 在 实际 工作 中 ， 帮 助 实现 金融 智能 化 。 
一 一 欧阳 星 日 信 证 券 软件 工程 师 


这 本 书 使 难 懂 的 机 器 学 习 理 论 变 得 浅显 易 懂 ， 书 中 没有 其 他 教科 书 上 枯燥 无 味 的 理论 ， 而 是 通过 实践 与 应 用 讲解 ， 让 工 
程 师 们 很 快 进入 数据 分 析 与 机 器 学 习 领 域 。 
一 一 张 恒 多 贝 网 运营 经 理 
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